Meta开发出懂谈判的人工智能,可“忽悠”人类玩家
·游戏《外交》中,忽悠人工智能Cicero具有对他人的出懂信仰、目标和意图进行推理的谈判能力,可以通过表现出同理心、工智使用人类语言交流并建立人际关系获胜。人类
Meta的忽悠人工智能团队(AI)11月22日宣布开发出Cicero,第一款在战略棋盘游戏《外交》中打出人类级别表现的出懂人工智能,这款游戏需要深厚的谈判人际谈判技巧。
早在1997年深蓝在国际象棋比赛中击败加里·卡斯帕罗夫之前,工智棋盘游戏就已经成为衡量人工智能成就的人类一个有用指标。2015年,忽悠AlphaGo击败围棋大师李·塞多尔,出懂将此类AI带到一个新的谈判高度。象棋和围棋都遵循一套相对清晰的工智比赛规则,但这些单纯的人类对抗性环境不需要AI与一同参与的玩家有语言交流。Cicero则可以在特定环境下,通过对话说服玩家、建立关系,从而获取胜利。
游戏《外交》的画面。
Cicero可能比人更会聊天
人工智能领域的一个主要长期目标是建立能够用自然语言与人类进行规划、协调和谈判的智能体。尽管目前模仿人类语言的模型取得了很大进展,但有效的AI谈判必须超越这一点,需要了解伙伴的信念、目标和意图,规划符合多人参与的联合行动,并有力地传达这些建议。
《外交》可能是最适合AI进行语言学习的培养皿之一,这款游戏很大一部分玩法涉及社交技能,玩家在游戏中扮演不同国家进行合作对抗,类似简化版的《文明》、《三国志》或《欧陆风云》。这是一个涉及合作和竞争的战略游戏,强调七个玩家之间的自然语言谈判和战术协调。AI必须表现出同理心,使用人类的语言交流,建立人际关系才能获胜,这对AI玩家来说是一项艰巨的任务。
考虑到这一点,Meta提出:“我们是否可以建立更有效、更灵活的AI,他们是否可以使用语言进行谈判、说服和与人合作,以实现与人类类似的战略目标?”
根据Meta的说法,答案是肯定的。Cicero通过《外交》学习了自己的技能,随着时间的推移成为游戏高手。Cicero将语言模型的规划和强化学习算法相结合,可以通过对话推断玩家的信念和意图,并根据其计划生成对话。
在《外交》游戏的40场匿名在线比赛中,Cicero的平均得分是人类选手的两倍多,在72小时的比赛中,它发送了5277条信息,在不止一场比赛中排名前10%。
AI也要学习“黑暗森林”法则
此前,AI的成功主要体现在纯粹的对抗性环境中,如国际象棋、围棋和扑克。在这些环境中,与对手交流没有价值,AI可以不断和自己进行游戏来学习,即通过具有足够计算和模型能力的自我游戏能力来解决问题。
但《外交》并不一样,在这款模拟各个国家进行合作对抗的游戏中,每个玩家都处于《三体》作者刘慈欣所说的“黑暗森林”法则中,玩家彼此之间并不信任。任何只考虑一时利益而不考虑人际关系的行为都将招致怀疑。哪怕是在没有语言交流的版本中,如果AI自我学习到与潜在人类盟友的规范和期望不符的策略,也同样发挥不佳。
游戏中的信息通常涉及协调精确的计划,任何沟通失误都可能导致失败。AI发送的每一条消息都必须基于上下文的对话历史、游戏状态和目标来规划。如果信息不准确,人类可能会要求AI解释其错误,这是一项更具有挑战性的任务,可能会导致进一步的错误。此外,重复的消息传递会产生反馈循环,例如,语言模型模仿其自身先前消息的风格,发送简短或不连贯的消息,这将增加未来此类消息在游戏中出现的可能性。
《外交》中的每一轮行动都是在谈判之后同时发生的。要想成功,AI必须考虑到玩家可能不信守诺言的风险,或者其他玩家可能怀疑自己信用的风险。因此,对他人的信仰、目标和意图进行推理的能力,以及通过对话说服和建立关系的能力是《外交》中必须掌握的技能。
“可控对话模式”是Cicero的核心
对此,为了培养Cicero,Meta将用于战略推理(类似于AlphaGo)和自然语言处理(类似于GPT-3)的人工智能模型整合在一起,放入一个AI代理中。在每场比赛中,Cicero都会查看游戏板的状态和对话历史,并预测其他玩家的行为。它可以计划玩家如何协调以实现他们的共同利益,并将这些计划转化为自然语言信息,也就是人类可以理解的语言。
Meta将Cicero的自然语言技能称为“可控对话模式”,这是Cicero的核心所在。Cicero从网络上抓取大量互联网文本,并从中提取可用信息构建对话。为了建立一个可控的对话模型,研究人员从一个有27亿参数的语言模型开始培养AI,该模型在互联网文本上进行了预训练,并针对40000多人进行了微调。
由此产生的模型掌握了游戏的复杂玩法,且很难被人类识别出来。Meta说:“例如,Cicero可以推断,在游戏后期,它需要取得某个特定玩家的支持,然后制定策略以赢得该玩家的青睐,它甚至可以从其他玩家的视角出发,看到风险和机会。”
但Cicero目前仍只能协调玩家在当前回合的行动。它没有能力模拟对话在游戏的长期过程中如何影响与其他玩家的关系。换言之,AI可以通过预测整局比赛走势制定发言计划,但却很难预测发言后对游戏内人际关系的长期影响。尽管研究人员用一套过滤器筛选出某些错误信息来维持文本的正确率,但AI还是会偶尔犯错。考虑到这一点,下一步Meta可能会为Cicero部署更具战略性的对话能力。不过,这些错误并未让其他玩家怀疑自己的对手或友军是人工智能。
Cicero在游戏中与人类对话。
至于更广泛的应用,Meta表示,Cicero研究可以“缓解人类与AI之间的沟通障碍”,例如保持长期对话以教授某人新技能。它还可以为电子游戏提供动力,让NPC(非玩家角色)可以像人类一样说话,了解玩家的动机并在游戏过程中进行调整。
但此项技术也被视作双刃剑。它可以用来操纵人类,通过模仿人类并根据上下文发言,以危险的方式欺骗人类。对此,Meta希望研究人员能够“以负责任的方式”构建代码,并表示已采取步骤检测和删除“这个新领域中的有害信息”,这可能是指Cicero从摄入的互联网文本中学习到的对话,这对于大型语言模型来说是一个风险。
目前Meta的Cicero研究发表在《自然》杂志上,标题为“通过将语言模型与战略推理相结合,在《外交》游戏中进行人类水平的游戏”。
(责任编辑:娱乐)
-
全国性商业银行信贷工作会召开!加大重点领域信贷支持力度,推动“保交楼”工作加快落实
11月21日,人民银行、银保监会联合召开全国性商业银行信贷工作座谈会,研究部署金融支持稳经济大盘政策措施落实工作。会议要求,人民银行、银保监会、各商业银行要全力做好稳投资促消费保民生各项金融服务,加大 ...[详细]
-
三星:到2035年全球DRAM市场规模将较目前的1000亿美元增长两倍
的全球内存销售与推广主管Jinman Han在一个投资者论坛上表示,到2035年,全球DRAM市场规模可能会在当前约1000亿美元的基础上增长两倍。三星将汽车视为未来需求增长的关键领域之一。2021- ...[详细]
-
山高新能源前10个月累计总发电量约423.28万兆瓦时 同比增长约5.3%
01250)公布,2022年10月该集团按合并报表口径完成发电量约40.87万兆瓦时,同比增长约18.7%。1-10月,该集团的累计总发电量约423.28万兆瓦时,较2021年同期增长约5.3%。该集 ...[详细]
-
上市航司最新经营情况来了!这一数据降幅超五成,两大航司合计300亿定增刚获通过!
炒股就看,权威,专业,及时,全面,助您挖掘潜力主题机会!上市客运航司陆续披露10月份经营情况。已公布数据显示,各大航司总体运营数据惨淡。当月,国有三大航司国航、南航、东航)、、等在运力投入、旅客周转量 ...[详细]
-
德国弗劳恩霍夫协会IPK研究所高级总监科尔:国际视角看制造业数字化转型
11月22日-25日,世界智能制造大会将在江苏南京举行。作为专题论坛之一,制造智能决策控制工业软件)论坛由世界智能制造大会组委会主办,爱波瑞江苏)科技发展有限公司、南京德锐企业管理咨询有限公司联合承办 ...[详细]
-
全国商品房销售额降幅连续5月收窄,金融政策“组合拳”有望提振市场信心
21世纪经济报道记者李莎 北京报道 11月15日,国家统计局发布1-10月房地产销售和投资数据。数据显示,1-10月全国商品房销售面积111179万平方米,同比下降22.3%。商品房销售额108832 ...[详细]
-
经济学家上调2023年通胀预期 称美国未来一年衰退可能性升至65%
一项最新调查显示,经济学家预计,到2023年年底,由于经济活动低迷和利率上升,美联储青睐的通胀指标PCE物价指数将上涨2.8%,这一预测高于上个月调查时经济学家预测的2.6%。此外,调查显示,经济学家 ...[详细]
-
美媒:彭斯正考虑参选,称美国人民2024年有比特朗普“更好的选择”
美国前副总统迈克·彭斯在11月14日接受采访时表示,他和他的家人正在“虔诚地考虑”是否参加2024年的总统竞选,称美国人民未来会有比前总统唐纳德·特朗普“更好的选择”。《纽约邮报》:彭斯称2024年美 ...[详细]
-
《农村义务教育学生营养改善计划实施办法》印发 营养膳食补助要设立专门台账
本报北京11月21日电 记者吴月)近日,教育部等7部门印发了《农村义务教育学生营养改善计划实施办法》,要求明确实施范围、完善管理体制、强化供餐管理、严格资金使用管理等。全国农村学生营养办有关负责人介绍 ...[详细]
-
为对冲税期高峰等因素的影响,维护银行体系流动性合理充裕,11月15日中国人民银行开展8500亿元中期借贷便利MLF)操作和1720亿元公开市场逆回购操作,中标利率均与前次持平。央行官网截图其中,MLF ...[详细]