设为首页 | 加入收藏 | 关注至诚
您现在的位置:主页 > 千亿老虎机 >

美国赌场上演扑克人机巅峰对决AI半-千亿老虎机-程领先

发布时间:2017-02-02   作者:admin

诈唬(bluff)是扑克的一种经典策略,它生动地体现了扑克游戏的“心理博弈”特征:即在手上的牌不够大的时候,依然虚张声势地加注,以吓退对手。为了达到好的诈唬效果,玩家的下注策略需要具备足够的随机性,以避免被对手摸清套。总是诈唬的人和从不诈唬的人都不是一个好的德扑玩家。

而计算机之父冯·诺依曼说过,“现实世界与此不同,现实世界包含有很多赌注、一些的战术,还涉及你会思考别人会认为你将做什么。”扑克就是这样一种更接近现实世界的游戏,玩家只能掌握自己手上的牌,通过这种非对称的信息与对手进行博弈。

该团队邀请了来自17个国家的33名专业扑克选手挑战DeepStack,在2016年11月7日到12月12日之间共进行了44852次较量。DeepStack成为了首个在一对一无限注德扑中战胜人类玩家的人工智能,并且平均胜率达到了492mbb/g(milli-big-blindspergame,一般职业玩家认为50mbb/g是个门槛)。

这场比赛名为“BrainsVs.ArtificialIntelligence:UppingtheAnte”(人脑大战电脑:升级版),于当地时间1月11日开幕,将持续到1月30日。四名顶尖人类扑克玩家JasonLee、DongKim、DanielMcAulay和JimmyChou,加上一个名为Libratus的人工智能,将在总共12万手的一对一无限注德扑比赛中角逐冠军荣誉和20万美元的金。

这主要是因为,此前20年间被人工智能攻克的西洋双陆棋、跳棋、国际象棋和围棋都是“完美信息”游戏,所有玩家在游戏中能获得的确定性信息是对称的。人工智能掌握这些游戏的难度,主要取决于游戏中需要做出的决策点(decisionpoints)的数量,这决定了计算机需要的计算量。围棋是上述几种棋类中决策点数量最多的,因而也是最后被人工智能掌握的。一盘围棋游戏约包含有10的170次方个决策点。

《麻省理工科技评论》(MITTechnologyReview)对此评价道,如果Libratus最终赢下这场赛事,将是人工智能的一大盛事。人工智能此前被证明极难模仿认了在扑克游戏中运动的推理和智力。扑克和跳棋、国际象棋和围棋有本质上的区别,因为扑克是一种“不完美信息”的游戏,在游戏全程,对手手中的牌面都是未知的。因此,基于所有对手可能的径而给出最理想的出牌策略是一项极其复杂的运算,而在无限注德扑局中,对方可以在原则上下加任意注,这无疑又大大增加了挑战性。

1月初,来自和捷克的10位科学家在预印本网站arXiv上载了一篇题为《DeepStack:无限注德扑的专业级人工智能玩家》的论文,介绍了一种能在一对一无限注扑克中击败人类玩家的新算法DeepStack。DeepStack具有出牌时的“直觉”。在运用深度学习,反复博弈之后,DeepStack学会了在每一个具体情境出现时进行推理。这非常接近人类玩家的“牌感”,即在当前情境下对个人牌面大小的感觉,并作出相应的决策。鉴于桑德霍姆早已将他的比赛时间表昭告天下,业界普遍认为和捷克的这个团队赶在比赛开始前夕上传论文,是存心“截胡”。

Libratus的开发者是美国卡内基梅隆大学的计算机系教授托马斯·桑德霍姆(TuomasSandholm)和其研究生诺姆·布朗(NoamBrown)。桑德霍姆是博弈论和人工智能领域的专家,他认为在人工智能的攻势下,人类还能长期坚守扑克阵地,十分了不起。

这并不是桑德霍姆第一次带着他的AI大将参加扑克的人机大战。2016年4月24日至5月7日,同样是在的大河赌场,桑德霍姆团队开发的人工智能Claudico在连续两周的无限注扑克比赛中轮流与四名排界前十的顶尖扑克选手(DougPolk,DongKim,BjornLi和JasonLes)单挑80000回合,Claudico排名第四。最终的排名顺序是:榜首的BjornLi共计赢得529033美元,第二名的DougPolk赢得213671美元,第三名的DongKim赢得70491美元,而JasonLes以80482美元的差距排在AI之后。