“天下无敌”的武器：人工智能是如何征服扑克游戏的（一）

2025-03-21 来源 : 社会

改变了碰单人游戏的手段，常常是顶级的单人游戏手段。Dies 将这手张牌的所有细节决胜负入进去，然后开始让处理程序跑起来。这个求解处理程序一下子就降解借助于一个最优高效率。处理程序给借助于结论说道，Dies 大多数情况下都继续做对了。在转张牌圈发了积木二时，他的决胜负一定会是底池水的 80% 而不是 50%，但河张牌圈诈唬的 170 万赌客是应该的碰法。

Dies 说道：“那种心里真妙。甚至比赢下一个大底池水还要妙。根本令人实现的地方是当你赢下像这样一场赛事的时候。” 在无论如何自己这手张牌下借助于了即使如此理想的水平此后，Dies 那晚睡得很安稳。

理想

对理想的追求数可以更早 1944 年。那一年天文学家詹姆士·卡尔··卡尔·以及社会学家奥斯卡·摩根斯坦（Oskar Morgenstern）登载了《机器学习与经济暴力行为》。这两个人一切都是纠正一个的路，他们视为，在社会学层面根本上存在着不应该地性。他们曾说： “我们希望能找借助于需有数学分析严谨性的原则，去为社亦会经济参加者概念‘理性暴力行为’，并从中都导出借助于该暴力行为的一般构造。”他们视为，经济家庭一定会被看成一系列的举例来说关键问题，在这些关键问题中都，个体参加者亦会都曾从每日的辛劳中都利用尽量多的效用。如果卡尔·诺依曼和摩根斯坦并不需要对继续做借助于应该议程的手段进行二阶的话，那么他们就并不需要在坚实的亨础上建立起一门社会学现代科学。

正是这种要为经济议程可视化的盼望，导致了他们要碰碰单人游戏。卡尔··诺依曼不愿了大多数不适当这项任务的单人游戏，常常是像刺猬或象棋这样的单人游戏。这种单人游戏碰家两国间都可以看到正方形上的所有白方，并涉及联并不相同的资讯。他向同为天文学家的雅各拉·亨特切尔亨（Jacob Bronowski）解释道：“人际父子关系不是这样的。人际父子关系亦会有虚张声势、还亦会有欺骗的小花招、亦会自问别人亦会视为自己打算继续做什么。这才是我的假说里头面一切都是的单人游戏。”卡尔··诺依曼视为，人际父子关系就像打。

卡尔··诺依曼常用的单人游戏是升级版。在这种单人游戏里头面，亦会给其中都的两名碰家随机“发放”对方看得的十六进制，然后要求两国间按照预计个数决胜负，赌谁的十六进制愈来愈大。卡尔·诺依曼导出借助于了最佳高效率的亨础。碰家既一定会在利用最好的张牌的时候下重节录，也一定会在利用最糟糕的张牌的时候，按照一定的次数%-下重节录，作为诈唬。（这个%-的变化取决于决胜负的个数比起底池水的个数。）卡尔··诺依曼显然，通过以数学分析上应该地的频率去诈唬和跟节录，从长远来看，碰家的显出不亦会高于收支平衡，而且就算他们把自己的高效率一五一十想到劲敌也不亦会财。好处的是，如果他们的劲敌不运用于卡尔··诺依曼描述的理想高效率，那么只要检验足够大，这些劲敌放任其他任何高效率肯定都亦会决胜负。

“机器学习”特别强调了直达下一代之交叉路口。在这个下一代里头，各种垄断性的社交都可以用数学分析的手段可视化：或多或少道拍卖、潜水艇战，甚至是物种将亨因传递给数代的垄断手段都可用这种手段可视化。但在高效率上都，本身在鼓动卡尔··诺依曼的显然上都几乎无法技术革新，直到 50 多年后，阿尔伯塔所学校（University of Alberta）计算机处理程序现代科学系的人才接过了这项任务。该系单人游戏数据分析的20世纪明星是一位称之为 Jonathan Schaeffer 的客座教授，经过 18 年的攻关，他终于辨认借助于了刺猬的高效率。阿尔伯塔所学校的师生在象棋、正方形、《母巢之》以及加拿大人的闲暇运动等多种单人游戏上都也利用了重大进展。不过，仍然归入特别头疼的关键问题，这正是卡尔··诺依曼自已被它吸引的原因：这种单人游戏里头面的隐藏资讯冲击了好议程的拟订。

像象棋或西洋双陆棋这样的单人游戏，在正方形上两国间碰家的高可玩性都清晰可辨，但不尽相同，尽管计算机处理程序忍耐都没法确定对方拿的是什么张牌，但仍才亦会解读劲敌的决胜负。 Neil Burch 是一名计算机处理程序现代科学家，在投身计算机科学一些公司 DeepMind 在此之以前，他曾在阿尔伯塔所学校以数据分析生和副客座教授的理应数据分析了 20 年，但他视为自己的一个小组20世纪的无论如何非常不急于。他说道：“我们辨认借助于，如果你找个见过世面的碰家来跟电脑赛事”，处理程序就亦会“被碾压，下决心被战胜”。

从某种相对来说道，这只是可视化可玩性的数组而已。所谓的可视化，是指对碰时牵涉到的所有提议进行可视化。机器学习生命学家常用分枝榕状图来说明单人游戏不尽相同的碰法。如果是像小刀石板拉这种直观的单人游戏，这张分枝榕状图就很小：就三个谱系，分别说明借助于石板、小刀以及拉，然后每个谱系的又可以引借助于三个谱系，分别对应劲敌可以借助于的石板、小刀以及拉。单人游戏越多适合于，这棵榕就越多巨量。即便是升级版的犹他州，碰“单挑”（即只有两个碰家碰）而且赌节录固定在预计个数，一棵紧接整的单人游戏榕也亦会包含有 316,000,000,000,000,000 个谱系。如果是碰决胜负金额不限的无限犹他州（no-limit hold ’em）的话，榕的规模甚至愈来愈加巨量。Burch 说道： “不太可能亦会变得非常巨量，大到什么相对？比宇宙中都的价电子需求量还要多。”

一开始，阿尔伯塔所学校数据分析一个小组的继续做法是无论如何把单人游戏规模缩小到愈来愈易于管理机构的范围——直观谩骂地将多多少少实在太相似的张牌归到两人，或多或少道，把一对九跟一对十看成是并不相同的。但是，随着计算机科学这个层面发展得愈来愈加稳固，并且随着一个小组的算法能好处地适应了的适合于性，它的处理程序也开始得到改进。这一发展的关键是一种称之为虚拟失望最小化（counterfactual regret minimization）的算法。计算机处理程序现代科学家给机器拉置任务，让它们比对借助于的最佳高效率，方法是让处理程序跟自己对战数十亿次，并纪录单人游戏榕里头面哪些议程的利润最低（那些就归入“失望”，计算机科学就能通过继续做借助于其他好处的自由选择，从而学亦会在下一代的迭代少将失望最小化）。 2015 年，Alberta 一个小组在《现代科学》新闻周刊上登载了一篇社论，标题称之为 “双人限节录犹他州已被攻克”（Heads-Up Limit Hold'em Poker Is Solved），宣拉 AI 在此此后。

对于某些碰家，常常是那些靠碰在线度日的碰家来说道，阿尔伯塔所学校数据分析一个小组的胜利对他们的生计涉及联了隐忧。都曾是职业赛碰家的 Terrence Chan 说道： “我回忆起当我们写借助于这篇社论时，大家的心里就仿佛，‘噢，这下子赛事难忘了，这一次一定亦会很引人入胜。’”

情况迅速就很清楚了，对计算机处理程序能辨认借助于最优高效率的能力很感兴趣的某种相对是生命学家。阿尔伯塔所学校一个小组的一位以前成员，因为跟迄今为止雇用他的软件一些公司签有规避条款，所以要求本文不要谈及他的一栏，但他想到我，自己仍未利用了数十万美元的报酬，条件是试图碰家开发并不需要比对理想碰法的软件，以及为开发并不需要在在线单人游戏中都战胜生命的机器人的脚本语言共享讨论。付不起那么多钱的碰家不只能等待很长的整整就可以利用愈来愈已足够的，由 AI 共享的高效率。《现代科学》新闻周刊登载攻克双人限节录犹他州社论的同一年，一位称之为 Piotrek 的波兰计算机处理程序脚本语言与以前在线碰家 Lopusiewicz 两人，开始售卖他的应用 PioSOLVER 的第一个修改版。只需 249 美元，碰家就可以上传一个有所区别愈来愈适合于的无限平版犹他州单人游戏的高效率。到了 2015 年，任何仅有足够稳固的个人电脑的人，都可以用得起卡尔··诺依曼数学分析显然的实际意味着了。

涉及阅读：

“因缘际会”的枪枝：计算机科学是如何征服单人游戏的（二）

“因缘际会”的枪枝：计算机科学是如何征服单人游戏的（三）

翻译者：boxi

。

西安银屑病医院哪家正规
北京白癜风专科医院哪好
北京甲状腺医院哪家好
佛山哪的妇科医院好
郑州妇科医院哪家好
准确率高的家用血糖仪
金笛复方鱼腥草合剂有治感冒作用吗
康恩贝肠炎宁颗粒怎么吃
常乐康和亿活哪个好
血糖仪哪个牌子准确

标签：扑克人工智能天下游戏武器

上一篇：搞笑GIF趣图：这自嘲媳妇我不想要了

下一篇：吴尊友谈为何抗疫很难躺平