谷歌让-12-个-AI-大模型攒局玩“大富翁”：Claude3.5-爱合作-GPT-4o-最“自私”

A股三大股指震荡收跌：沪指3700点得而复失，两市成交额放大至2.2万亿元记者时时跟进 特朗普会前与欧洲划定“红线”：不谈领土，只争取即时停火学习了 元成股份（603388）、新智认知（603869）投资者索赔案持续推进 星展：上调丘钛科技目标价至15港元评级“买入”官方通报 松原金融监管分局推动银行保险机构助力提振消费见行见效科技水平又一个里程碑 中信证券：首予阜博集团“买入”评级目标价8港元看好全球维持版权保护长期需求官方已经证实 全球债务危机动摇法币信用，黄金或迎超级周期：未来5-10年有望翻倍 军信股份递表港股拟搭建“A+H”上市平台后续来了 英国二季度GDP超预期增长0.3%，进一步降息渐行渐远学习了 全球债务危机动摇法币信用，黄金或迎超级周期：未来5-10年有望翻倍 死磕白酒拖累净值，易方达萧楠的操盘失灵了吗？ 元成股份（603388）、新智认知（603869）投资者索赔案持续推进官方已经证实 【券商聚焦】兴业证券维持康师傅控股(00322)“增持”评级看好其产品力、渠道力、营销力持续升级秒懂 钉钉与京东方能源达成战略合作后续反转来了 英国二季度GDP超预期增长0.3%，进一步降息渐行渐远 洛杉矶港7月吞吐量再创新高！业内却警告：“假旺季”已接近尾声实时报道 中信证券：首予阜博集团“买入”评级目标价8港元看好全球维持版权保护长期需求科技水平又一个里程碑 5.3亿，溢价300%+！南京这家“隐形冠军”，被广东上市公司拿下最新进展 香港金管局、香港证监会谈稳定币相关市场波动：公众应保持谨慎，深入分析相关资讯 安琪酵母：上半年归母净利润7.99亿元，同比增长15.66%最新进展 密尔克卫：上半年归母净利润3.52亿元，同比增长13.12%实时报道 香港金管局、香港证监会谈稳定币相关市场波动：公众应保持谨慎，深入分析相关资讯是真的吗？ 密尔克卫：上半年归母净利润3.52亿元，同比增长13.12%官方处理结果 金发科技披露总额4361.6万元的对外担保，被担保方为辽宁金发科技有限公司官方通报来了 二季度基金对寒武纪态度出现分歧 迪尔公司股价周四盘前重挫逾6% 实探宁王枧下窝矿区：村民天天看锂价等复工实测是真的 水羊股份：目前有EDB、RV品牌进驻线下免税渠道秒懂 欧派家居披露总额5000万元的对外担保，被担保方为清远欧派集成家居有限公司后续反转来了 前7月社会融资增量逼近24万亿元后续反转来了 福龙马披露2笔对外担保，被担保公司2家 长和发布2025年中期业绩 瑞银建议投资者对冲潜在市场波动风险 科陆电子：上半年归母净利润1.9亿元，同比扭亏为盈学习了 康宁医院回购2.67万股金额达24万港元 康宁医院回购2.67万股金额达24万港元官方通报来了 满坤科技选举刘晓波为职工代表董事官方处理结果 深化协同融合创新葛海蛟与龙国航发董事长张玉金举行工作会谈科技水平又一个里程碑 深化协同融合创新葛海蛟与龙国航发董事长张玉金举行工作会谈专家已经证实 普京称美国正积极而真诚地努力结束战争官方通报来了 京东(JD)盘前涨超1% 第二季总收入同比增长22.4%这么做真的好么？ 文科股份：目前公司监事会仍履行其相关职责官方处理结果 湖南裕能：公司将密切关注原材料价格走势后续反转来了 开普云与瀚博半导体达成战略合作，共推国产智能体一体机 远望谷：公司实施股票期权激励计划中 先锋电子：本末科技聚焦于机器人和核心零部件制造 两年期美债收益率逼近5月以来低点交易员笃信美联储下月将降息实时报道 亚厦股份：如有重大事项，公司将严格按照信息披露相关法规履行信息披露义务是真的？

给大模型智能体组一桌“大富翁”，他们会选择合作还是相互拆台？实验表明，不同的模型在这件事上喜好也不一样，比如基于 Claude 3.5 Sonnet 的智能体，就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”，只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体，这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似，但相对简单，玩家只需要对手中的“资源”做出处置。这当中，虽然每个玩家心里都有各自的小九九，但作者关注的目标，是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏，真名叫做 Donor Game（捐赠博弈）。

在这过程中，作者关注的是各模型组成的智能体群体的表现，因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些，就是 GPT 和 GPT 坐一桌，Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体，它们各自手中都握有一定量的“资源”，系统会从这 12 名玩家中随机抽取 2 个，分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者，受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说，捐赠者每花费掉一份资源时，受赠者都可以获得两份，这也是总体资源能够增加的来源。

不过对于单个个体而言，选择不进行捐献，在短期内的收益会更高。

在做决定之时，捐赠者能够知道受赠者之前做出的决定，从而判断是否要捐赠。

这样的“捐赠”，每一代中一共会进行 12 次，一轮结束后，手中资源量排在前 6 名的智能体可以保留至下一代。

同时，下一代会产生 6 个新的智能体，这 6 个新智能体会从留下的 6 个智能体那里学习策略，但同时为了差异化也会引入随机变异。

包括初始的一代在内，基于每个模型产生的智能体，都会进行十轮迭代。

谷歌让