AlphaGo进化：3天100:0碾压旧版不使用人类知识

AlphaGo进化：3天100:0碾压旧版不使用人类知识

发布时间：2017-11-13 10:35:08 来源于：CBF聚焦网

摘要：当地时间10月18日，谷歌人工智能团队DeepMind团队在国际学术期刊《自然》上发表论文，宣布新版AlphaGo——AlphaGo Zero可以在没有人类指导的情况下学习，其水平超过此前所有AlphaGo（阿尔法狗），仅用3天就碾压了此前击败李世石的旧阿尔法狗。

当地时间10月18日，谷歌人工智能团队DeepMind团队在国际学术期刊《自然》上发表论文，宣布新版AlphaGo——AlphaGo Zero可以在没有人类指导的情况下学习，其水平超过此前所有AlphaGo（阿尔法狗），仅用3天就碾压了此前击败李世石的旧阿尔法狗。

AlphaGo Zero仅拥有4个TPU，零人类经验，所以，它的名字叫作零（Zero），Nature这篇论文——《Mastering the game of Go without human knowledge》中，Deepmind展示新版本围棋程序AlphaGo Zero在数百万局自我对弈后，随着程序训练的进行，独立发现了人类用几千年才总结出来的围棋规则，还建立了新的战略。《自然》为该论文配发两篇评论文章，一篇来自计算机科学家，一篇来自围棋选手。

今年5月乌镇大会上，中国棋手、世界冠军柯洁9段以0:3不敌AlphaGo。随后Deepmind创始人得米斯•哈萨比斯( DemisHassabis)宣布，AlphaGo将永久退出竞技舞台，不再进行比赛。

同时哈萨比斯表示：“我们计划在今年稍晚时候发布最后一篇学术论文，详细介绍我们在算法效率上所取得的一系列进展，以及应用在其他更全面领域中的可能性。就像第一篇 AlphaGo 论文一样，我们希望更多的开发者能够接过接力棒，利用这些全新的进展开发出属于自己的强大围棋程序。”

Deepmind如约在Nature发布了这篇论文《Mastering the game of Go without human knowledge》。论文中，Deepmind展示了AlphaGo Zero一种新的强化学习方式，通过自我对弈学习AlphaGo Zero 成为自己的老师。这个学习系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后，通过将这个神经网络与一种强大的搜索算法相结合，它就可以自己和自己下棋了。

在它自我对弈的过程中，神经网络被调整、更新，以预测下一个落子位置以及对局的最终赢家。这个更新后的神经网络又将与搜索算法重新组合，进而创建一个新的、更强大的 AlphaGo Zero 版本，再次重复这个过程。在每一次迭代中，系统的性能都得到一点儿的提高，自我对弈的质量也在提高，这就使得神经网络的预测越来越准确，得到更加强大的 AlphaGo Zero 版本。

这种技术比上一版本的 AlphaGo 更强大，因为它不再受限于人类知识的局限。在进行了3天的自我训练后，AlphaGo Zero 在100局比赛中以100：0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo 击败了曾18次获得围棋世界冠军的韩国九段棋士李世石。经过 40 天的自我训练后，AlphaGo Zero 变得更加强大，超越了“Master”版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的柯洁。

（责任编辑：空城）

近期热门资讯：

[2020-09-23] 敛财超亿侄女变情妇！江西原高官史文清落马
[2020-08-24] 中纪委机关报剖析赵长青案：打着书法的幌子大肆敛财
[2020-08-22] 赖小民，40年的“官范”人生
[2020-07-21] 15名“老虎”被通报！2020上半年中央“打虎战报”来了！
[2020-07-10] 头发已白！前妻被带走后落马的“老虎”，刷新了省里的反腐纪录
[2020-06-16] 从王立军到邓恢林重庆公安局长魔咒再现
[2020-05-14] 首艘国产航母研制总指挥落马最怕他泄密了！
[2020-05-11] 金融高官胡怀邦妻子跳楼自杀疑现场图曝光
[2020-05-07] 被曝家产超10亿？“河北虎”张和最新内情
[2020-03-17] “训诫发哨人”蔡莉被起底裸官和双面人加于一身

分享到：微信微博

	停摆6个月后，乌克兰足球超级联赛重新启动
	俄乌双方继续在顿涅茨克等地交战
	佩洛西窜台的若干事实
	美国向乌克兰提供价值近30亿美元额外安全...
	美国第一夫人吉尔·拜登新冠病毒检测结果再...
	联合国安理会就俄乌冲突半年举行公开会

AlphaGo进化：3天100:0碾压旧版 不使用人类知识

近期热门资讯：

AlphaGo进化：3天100:0碾压旧版不使用人类知识