阿尔法狗零反对上帝
他根本没有学会人类象棋图。经过72个小时(即3天)的纯自学,他超越了2016年3月击败李石师的AlphaGo Lee版本,并在100,333,600次21天的成功后,于2016年底超越了60,333,600次击败所有人类大师的AlphaGo Master版本,并于2017年5月3333,600次击败了柯杰。89:11的记录在第40天超过了所有其他的阿尔法围棋版本,成为了最强的围棋玩家。最令人震惊的是,阿尔法零号仅仅依靠自学,在3天内就达到了顶级人类玩家的水平。正如之前关于人工智能和搜索引擎优化的帖子中提到的,阿尔法戈在学习了大量人类历史象棋游戏后,开始了大量的自我竞争。这一次阿尔法零号根本没有学习人类象棋。它从零开始是一个自我匹配,在3天内完成了490万套自我匹配,达到了阿尔法戈李版的水平。
下图显示了AlphaGo Zero的水平增长曲线:
可以看出,该水平在3天内实现了跨越式增长,然后趋于平稳,但仍在增长。
以前的AlphaGo达到了AlphaGo主版本的水平。在行走了一年多之后,它大致是按“月”来计时的,而AlphaGo Zero的进度是按“日”甚至“小时”来计时的。现在看来,AlphaGo花了这么长时间的原因可能是它被人类误导了,被人类历史象棋游戏误导了,被人类的知识和思维限制了。阿尔法零号完全抛弃了现有的人类知识,不受人类知识的限制。他是一个自由战士,能够不受约束地真正找到最优解。
既然我们已经放弃了围棋知识,我们一定是随机或愚蠢地开始了我们的游戏。AlphaGo Games已经在这个网站上发布了许多实际的象棋游戏。那些感兴趣的人可以研究它,并且有许多有趣的地方。最初的AlphaGo Zero自我匹配的确很混乱,但很快发现人类也掌握了大视野、布局、关闭等知识。但有些东西后来被掌握了,比如综合症。
聂卫平和柯杰都说,看了《阿尔法戈》后,我们发现很多人对《戈》有错误的理解。在某种程度上,阿尔法零号没有历史包袱,没有输赢的心理包袱,也没有人类思维的限制。它对围棋的探索是自由和无限的,其目标是全局最优解。因此,它的方法很可能最终是正确的。
可以安慰人类的是,阿尔法零号的自由探索结果表明,人类几千年来的一些研究和探索是错误的,但总的来说没有令人发指的错误。AlphaGo Zero从一张白纸开始,最终收敛到与人类相似的方向。例如,它证实了一些人类的刻板印象是正确的,在一段时间的鬼混之后,阿尔法零号也是如此。
有点矛盾的是,阿尔法零号的训练方法有点像回到一个彻底的暴力算法,走完所有的可能性,看看哪一个会赢。根据计算,围棋的所有可能的移动都超过了宇宙中的原子数量,所以阿尔法围棋零分的样本数量一定是非常小的比例。
但是正是这个微小的样本让阿尔法零号达到了这个水平。下面的问题是,在人工智能中,大数据更重要还是模型更重要?在AlphaGo Zero出现之前,人工智能在过去两年的快速发展归功于获取大量数据是关键这一事实。所有取得重大进展的领域都是由于数据的可用性,包括语音、文本、图像、视频、医疗和自动驾驶。
现在阿尔法零号不需要现有的数据。给它规则和模型,它会自己推动一切。这是关于创造吗?它能移植到其他领域成为一般智能吗?思考有点可怕。
谷歌之所以伟大(至少到目前为止)是因为其他人认为它已经取得了巨大的成就,当其他人忙于赞美和跟进时,它经常毫不犹豫地推翻现有的东西,并以另一种方式取得更惊人的成就。
在过去的一年里,我参加了搜索引擎优化行业会议,我演讲的主题是人工智能。作为一名搜索引擎优化人员,我如此关注人工智能的原因是我不知道什么时候同样的智能会被用于搜索算法。如果有一天人工智能显示当前的搜索算法在判断内容质量上是错误的,权威方法是错误的,垃圾链接方法是错误的,人工智能有正确的方法,并且排名算法相应地改变,那么我们以前使用的搜索引擎优化方法仍然适用吗?