编者按:本文由新智元编译,来源:pokersites.me.uk,编辑:弗格森,36氪经授权发布。 2017年是AI在扑克上取得突破的一年,冷扑大师Libratus和DeepStack 相继完胜人类,实现对人类专业级玩家的超越,毫无疑问是里程碑式的突破。在AlphaGo和Master与人类专业棋手的PK光环下,扑克AI的研究稍显黯淡,但是,以解决不完美信息博弈为目标的扑克AI路径难度和重要性并不亚于围棋。在商业谈判、医疗健康、网络安全、拍卖等领域,这一技术有着不容忽视的应用价值。本文以信息图示的形式,为你介绍扑克AI的历史、技术原理、对战细节、AI 的优势等,了解冷扑大师的前世今生。 2017年是AI在扑克上取得突破的一年,在AI的发展历史上,具有里程碑的意义。 1月,卡耐基梅隆大学的 AI 程序在“一对一不限注”的扑克比赛中,击败了一组世界级的德州扑克职业选手。出乎所有人的意外,这一程序对人类专业扑克手的胜利几乎是压倒性的:14bb/h。 (注,德州扑克中,线下按bb/h,超过15bb/h,你已经完全统治这个级别的桌子了,能打到5bb/h-10bb/h已经很不错了。线上按bb/100手,超过5bb/100已经非常厉害了。) 比赛一共打了12万手,最后 AI 程序赢得170万筹码,也就是约 1.7 万大盲注,接近 90 个买入。对职业扑克玩家来说,还好这不是真正的钱,虽然他们在这场比赛中溃不成军。团队里每个人都败给了机器。 这个 AI 程序被称为 Libratus,它的开发者之一,CMU 博士生 Noam Brown 称它是“扑克AI的圣杯”。Libratus 是 Noam Brown 和 CMU 教授 Tuomas Sandholm 一起开发的,而它只是 CMU 研发的一系列扑克 AI 程序中最新的一个。此前,从来没有机器能在一对一不限注德州扑克游戏中击败世界级的人类职业玩家。 卡耐基梅隆大学的 AI 程序 Libratus 的开发者Tuomas Sandholm 教授(右)与 Noam Brown 博士 根据 Brown 的说法,后续版本的 Libratus 还能有很大的提升空间,升级后的程序理论上能赢 50bb/h。 而在惊人的 Libratus 之前,来自加拿大和捷克的几位计算机科学研究者近日在 arXiv 上贴出论文,介绍了一种用于不完美信息(例如扑克)的新算法,DeepStack 结合使用循环推理来处理信息不对称,使用分解将计算集中在相关的决策上,并且使用一种深度学习技术从单人游戏中自动学习的有关扑克任意状态的直觉形式。研究者在论文中称,在一项有数十名参赛者进行的44000手扑克的比赛中,DeepStack 成为第一个在一对一无限注德州扑克中击败职业扑克玩家的计算机程序。 随后,Science以封面文章的方式,对这一AI 在不完美信息博弈中堪称里程碑式的突破进行了报道。 扑克网站pokersites.me.uk近日发布了一篇文章,以信息图的方式,完整地介绍了人类开发AI程序以对抗扑克玩家的里程,从1984年开始,我们已经在这一方向上探索了30多年,在2017年获得最值得骄傲的成功。冷扑大师“ Libratus” 和DeepStack 不仅仅意味着在扑克上的突破,更多的是深度学习和人工智能综合性的成就和技术高度。 下文,我们将从历史、技术原理、对战细节、AI 的优势、扑克AI的延伸应用以及未来等多个方面,介绍以扑克为攻克的目标的这一人工智能突破路径。不完美信息博弈上,AI技术的成熟与应用,将会进一步扩展AI的应用边界,比如,在商业谈判、医疗健康、网络安全、拍卖等等领域得到广泛应用。 扑克AI标志着AI研究历史上的又一个里程碑。 IBM的“深蓝”,由卡内基梅隆大学开饭,在1997年的复赛中击败国际象棋世界冠军卡斯帕罗夫。 谷歌的AlphaGo AI程序击败围棋手李世石。 2011年,IBM的超级计算机 Watson 在Jeopardy比赛中击败两位世界冠军。 超过55岁的人群,只有35%的人信任AI; 17岁到24岁的人群,信任AI的人比例为62%; 超过50岁的人中,71%的人认为,智能虚拟助理将会在未来简化他们的生活。 阿尔伯塔大学 卡内基梅隆大学 奥克兰大学 扑克AI背后的科学家: Noam Brown,卡内基梅隆大学 Tuomas Sandholm,卡内基梅隆大学 Michael Bowling,阿尔伯塔大学 1. 1984年,Mike Caro 创建的基础扑克AI软件Orac参加了WSOP的比赛。 注:世界扑克大赛(World Series of Poker,简称WSOP)是世界上具有重要影响力的扑克锦标赛,每年在美国拉斯维加斯举办。此项赛事的起源可以追溯到1970年,当时奔尼·比尼恩(Benny Binion)邀请了六位知名扑克选手在马蹄铁赌场(Binion's Horseshoe Casino)举办了第一届比赛,当时的冠军是由投票选出的。(来源:维基百科) 2. 1997年,阿尔伯塔大学(UoA)发布了扑克AI Loki,专攻有限下注的德州扑克比赛。 3. 2003年,扑克AI开发者开始从国际象棋方法论的模型中转移,寻找新的办法。 4. 2005年,在Golden Palace举办了扑克机器人世界系列赛。 5. 2006年,年度计算机扑克竞赛(ACPC)开始举办。 6. 2008年,UoA的扑克机器人Polaris 6位人类玩家进行了一对一的无限下注竞赛,成绩为3胜2负一平。 7. 2009年,奥克兰大学发布 Sartres 。 8. 2012年,拉斯维加斯Bellagio 赌场启动了2/4美元有限下注的机器人,每个人都能尝试与之进行对抗。 9.2015年,有限下注的比赛以及被阿尔伯塔大学的扑克机器人Cepheus攻克。 10. 2016年,在ACPC上出现了两个顶级的AI:1)前谷歌工程师Eric Jackson 开发的Slumbot,在WSOP上大赚一笔;2)CMU 博士生开发的“Act1”数年来在线上扑克对战中保持常胜。 11. 2017年,阿尔伯塔大学开发的DeepStack击败了扑克专业玩家。同时,来自CMU的神秘AI也完胜最好的人类扑克玩家。 Libratus 基于匹兹堡超级计算中心1500万小时核心计算制定自己的扑克策略。 比一般的现代桌面计算机快30000倍 RAM达到274 TeraBytes 成本:965万美元 在有限下注的对抗中,一共包含了31600万亿个不同的游戏状态。 无限下注的对抗所包含的独特的情景数量比宇宙中原子的数量还多。 以每秒一次的频率,一个人需要100亿年的时间,才能尝试完所有的有限下注状态。 Libratus的策略: Libratus依赖于一个算法来计算策略,而非修正已经被写入程序的策略。 Libratus每天都在分析自己的下法,并修正错误,每天都在进行不同的对战。 Libratus会将自己的行动随机化,让对手不能确定自己是不是在bluffing。 Libratus的算法不是专用于扑克的,还能够应用到任何的不完美信息情景中。 Libratus三大模块。Libratus有三大模块,每一个都在执行不同的任务: 1. 学习扑克游戏规则,尝试找到能解决每一个场景的对应不同策略; 2. 在每一手牌中,为每一次行动进行决策; 3. 持续地更新,对进入到系统中的每一个新信息进行记录和存档。 Libratus:没有深度神经网络,从头开始学习规则,所运用的策略完全独立于人类玩家。 其他AI:有深度神经网络,对旧的玩法进行分享以学习规则,所运用的策略不独立于人类玩家。 人脑 VS AI Claudico  2015年,Tuomas Sandholm和CMU的同事发布了一个超级智能的扑克AI Claudico,用于无限注的扑克对抗。 四名最好的玩家:Doug Polk,Bjorn Li,Dong Kim 和 Jason Les 在Rivers 赌场完成了与Claudico的对抗。 在为期13天的比赛中,一共进行了8万手的比赛,下注的虚拟货币数量总额为1.7亿美元。 四名玩家一起击败了Claudico,赢了732713美元。 2017年,UoA发布了DeepStack,专攻无限下注的德州扑克。DeepStack采用了深度神经网络,来模仿人类在围棋游戏中的“直觉”和学习能力。DeepStack将游戏的场景“压缩”到10的14次方,由此一来,两个玩家的对抗产生的可能的游戏场景就是10的160次方。 结果:整个研究涉及了几十名参与者,包含了44万手扑克。DeepStack的平均获胜率是450 mbb/g,在专业扑克玩家中,50 mbb/g的赢率就可以称得上是优秀了。与DeepStack对战的都是优秀的玩家,但是,它还没有与顶级玩家过招。 2017年,CMU的冷扑大师 Libratus 横空出世,创造了扑克AI与人类玩家对抗最为压倒性的胜利。 2017年1月,四位人类最顶级的玩家与Libratus 进行对抗,一共进行了12万手的比赛。 每一手对抗中,人类玩家和AI各自拥有2万筹码,盲注为50/100。 Libratus 分别击败了四位玩家,并且赢率为14.72美元每一手。 Libratus的赢率为14.7 bb 每一百手,这对AI来说是一个非常优秀的结果了。 所有的四名人类玩家都输掉了自己的3万手对抗,等于输掉了176万6250美元。 AI 的优势在哪? AI不会疲劳,不会在累的情况下做出错误决策; AI 能够找到玩家的特定缺陷; AI 对钱的价值没有概念; AI 没有情感,不会被偏见影响; AI对风险不会感到害怕,如果Libratus有10%的机率赢得2万美元,同时也有90%的机率打平,或者有保证得到1999美元,它一般都会采纳10%。 对于扑克AI来说,下一个挑战是,一次对抗多个人类玩家。 电子的循环比生物化学的速度要快几百万倍。 Libratus 的联合开发者Noam Brown 预计,一个完美的GTO bot可能会以15 bb每一百手的胜率击败Libratus。 AI 每周能够完成人类需要2万年才完成的工作。 到2021年,网络安全中机器学习的应用,将能推动大数据、智能和分析行业超过960亿美元的开支。 不完美信息的应用:商业谈判、医疗健康、网络安全、拍卖等等。