每日精選AI研究論文及翻譯
多模態推理需要語言與視覺之間的迭代協調,然而何謂有意義的交錯思維鏈仍不明確。我們主張文本與圖像思維應作為互補而非同構的模態,共同推進推理進程。基於此原則,我們構建了ThinkMorph——一個通過在2.4萬條高質量交錯推理軌跡上微調的統一模型,這些數據涵蓋了不同視覺參與度的任務。ThinkMorph學會生成漸進式的文本-圖像推理步驟,既能具體操縱視覺內容,又能保持連貫的語言邏輯。該模型在視覺中心基準測試上實現大幅提升(較基礎模型平均提高34.7%),並能泛化至領域外任務,表現媲美甚至超越規模更大、參數專有的視覺語言模型。除性能提升外,ThinkMorph展現出湧現的多模態智能,包括未經訓練的視覺操縱技能、推理模式的自適應切換,以及通過多樣化多模態思維實現更優的測試時擴展能力。這些發現為表徵統一多模態推理模型的湧現能力指明了富有前景的研究方向。
當代人工智慧硬體(如NVIDIA的Blackwell架構)正日益採用低精度浮點數格式,以應對大型語言模型中普遍存在的激活值異常值問題。儘管存在這一產業趨勢,學界仍缺乏針對不同粒度層級的浮點數與整數量化統一比較,導致演算法與硬體協同設計缺乏明確指引。本文透過系統性研究浮點數與整數格式的權衡取捨填補此空白。我們發現關鍵的效能轉折點:浮點數在粗粒度量化中表現卓越,但在細粒度(區塊級)比較中則呈現更複雜的態勢。綜合比較顯示,對於流行的8位元細粒度格式(如區塊大小32的MX格式),MXINT8在演算法精度與硬體效率上均優於對應的浮點數格式。然而在4位元格式中,浮點數(如MXFP4、NVFP4)通常具有精度優勢,但我們證明當採用哈達瑪旋轉等異常值緩解技術時,NVINT4可超越NVFP4。我們還提出一種對稱剪裁方法,解決細粒度低位元整數訓練中的梯度偏差問題,使MXINT8訓練實現近乎無損的效能。這些發現對當前硬體發展路徑提出挑戰,證明「一刀切」的浮點數方案並非最優解,並主張細粒度整數格式(特別是MXINT8)能為未來AI加速器提供更佳的精度、功耗與效率平衡。
基於視覺語言模型驅動的電腦操作代理,已在行動平台等數位環境中展現出類人的操作能力。儘管這類代理在推動數位自動化方面前景廣闊,但其可能引發系統入侵、隱私洩漏等不安全操作的潛在風險正引發重大關注。在行動環境廣闊而複雜的操作空間中檢測這些安全隱患,仍是一項亟待深入探索的重大挑戰。為奠定行動代理安全研究的基礎,我們推出MobileRisk-Live動態沙箱環境,並配套建立包含精細標註真實操作軌跡的安全檢測基準。基於此,我們提出OS-Sentinel新型混合安全檢測框架,該框架通過形式化驗證器檢測顯性系統層級違規,並結合基於VLM的上下文判別器評估情境風險與代理行為,實現協同防護。實驗表明,OS-Sentinel在多項指標上較現有方法提升10%-30%。深入分析更為開發更安全可靠的自動化行動代理提供了關鍵洞見。
大型語言模型(LLM)的效率從根本上受制於其序列化、逐詞元的生成過程。我們主張突破此瓶頸需要建立新的LLM擴展維度:提升每個生成步驟的語義頻寬。為此,我們提出連續自迴歸語言模型(CALM),實現從離散下一詞元預測到連續下一向量預測的典範轉移。CALM採用高保真自編碼器將K個詞元區塊壓縮為單一連續向量,並能以超過99.9%的準確率重建原始詞元。這使我們能將語言建模為連續向量序列而非離散詞元,從而將生成步驟數量減少K倍。此典範轉移需要新建模工具組,因此我們開發了完整的無似然框架,支持在連續域中進行穩健訓練、評估與可控採樣。實驗表明,CALM顯著優化了性能與計算量的權衡,能以大幅降低的計算成本達到強力離散基線模型的性能。更重要的是,這些發現確立了下一向量預測作為實現超高效率語言模型的強大可擴展路徑。程式碼:https://github.com/shaochenze/calm。專案頁面:https://shaochenze.github.io/blog/2025/CALM。
視覺-語言-動作模型使機器人能夠根據多模態輸入理解並執行複雜任務。儘管近期研究探索使用強化學習自動化繁瑣的數據收集過程以擴展監督式微調,但由於基於流模型的VLA(如π₀、π₀.₅)會產生難以處理的迭代去噪動作對數似然,將大規模RL應用於此類模型仍具挑戰性。 我們提出開源框架π_RL來應對此挑戰,該框架支持在並行模擬環境中訓練基於流模型的VLA。π_RL實現了兩種RL算法:(1)「流噪聲」將去噪過程建模為離散時間馬可夫決策過程,通過可學習的噪聲網絡實現精確對數似然計算;(2)「流隨機微分方程」將去噪與智能體-環境交互整合,構建雙層MDP框架,利用常微分方程至隨機微分方程轉換實現高效RL探索。 我們在LIBERO與ManiSkill基準測試中評估π_RL。在LIBERO上,π_RL將少樣本SFT模型π₀和π₀.₅的性能分別從57.6%提升至97.6%、從77.1%提升至98.3%。在ManiSkill的4352個抓取放置任務中,通過320個並行模擬環境訓練,π_RL將π₀從41.6%提升至85.7%,π₀.₅從40.0%提升至84.8%,展現了異構模擬下可擴展的多任務RL能力。 總體而言,π_RL相較SFT模型實現了顯著性能提升與更強泛化能力,驗證了在線強化學習對於基於流模型的VLA的有效性。
大型語言模型的強化學習微調常因訓練與推斷策略間的數值不匹配而出現不穩定性。儘管先前研究嘗試通過算法修正或工程對齊來緩解此問題,我們發現其根本原因在於浮點運算精度本身。廣泛採用的BF16格式雖具備較大動態範圍,但其引入的顯著捨入誤差破壞了訓練與推斷的一致性。本研究證明,僅需回歸使用FP16即可有效消除這種不匹配。此調整極為簡便,現代框架可完全支援且僅需修改數行程式碼,無需改變模型架構或學習算法。實驗結果表明,統一採用FP16能在不同任務、算法和框架中實現更穩定的優化、更快的收斂速度以及更強的效能表現。我們希望這些發現能促使學界重新審視強化學習微調中的精度權衡問題。
空間理解能力始終是大型視覺語言模型(LVLM)的薄弱環節。現有的監督式微調(SFT)與近期採用可驗證獎勵的強化學習(RLVR)流程,皆依賴成本高昂的監督標註、專用工具或受限環境,難以實現規模化擴展。我們提出 Spatial-SSRL——一種自監督強化學習範式,能直接從普通 RGB 或 RGB-D 影像中提取可驗證信號。該方法自動構建五項捕捉二維與三維空間結構的預訓練任務:亂序圖塊重排、翻轉圖塊識別、裁剪圖塊修補、區域深度排序及相對三維位置預測。這些任務提供易於驗證的真實答案,無需人工或 LVLM 標註。基於此任務集的訓練能顯著提升空間推理能力,同時保持通用視覺能力。在涵蓋圖像與影片的七項空間理解基準測試中,Spatial-SSRL 相較 Qwen2.5-VL 基線模型平均準確率提升達 4.63%(3B 參數)與 3.89%(7B 參數)。實驗結果表明,簡潔的內在監督機制可實現大規模 RLVR,為增強 LVLM 的空間智能提供實用路徑。
分佈匹配蒸餾(DMD)可將基於分數的生成模型提煉為高效的一步生成器,且無需與教師模型的採樣軌跡保持一對一對應關係。然而,受限的模型容量導致一步蒸餾模型在複雜生成任務(例如文本到視頻生成中合成精細物體運動)上表現欠佳。直接將DMD擴展至多步蒸餾會增加記憶體使用量和計算深度,導致不穩定性和效率下降。雖然先前研究提出隨機梯度截斷作為潛在解決方案,但我們觀察到該方法會大幅降低多步蒸餾模型的生成多樣性,使其降至與一步蒸餾模型相當的水平。為解決這些限制,我們提出分階段DMD——一種融合分階段蒸餾與專家混合(MoE)思想的多步蒸餾框架,能在降低學習難度的同時提升模型容量。分階段DMD基於兩個核心思想:漸進式分佈匹配與子區間內的分數匹配。首先,我們的模型將信噪比範圍劃分為多個子區間,通過逐步向更高信噪比層級精煉模型,以更有效捕捉複雜分佈。其次,為確保每個子區間的訓練目標精確性,我們進行了嚴謹的數學推導。我們通過蒸餾尖端圖像與視頻生成模型(包括Qwen-Image(200億參數)和Wan2.2(280億參數))驗證分階段DMD的有效性。實驗結果表明,分階段DMD在保持關鍵生成能力的同時,能比DMD更好地保留輸出多樣性。我們將公開程式碼與模型。
自主圖形使用者介面(GUI)代理的運作依賴精確的GUI基礎定位技術——即將語言指令映射至螢幕座標以執行使用者命令。然而,當前無論透過監督式微調(SFT)或強化微調(RFT)訓練的模型,皆缺乏對自身能力邊界的認知,導致過度自信與不可靠的預測。我們首先系統性評估通用模型與GUI專用模型中的概率化信心與語言化信心,發現信心值與實際準確度存在錯位,此問題在動態GUI自動化任務中尤為關鍵,因為單次錯誤即可能導致任務失敗。為此,我們提出HyperClick框架,透過不確定性校準來增強GUI基礎定位的可靠性。該框架採用雙重獎勵機制,結合正確動作的二元獎勵與基於截斷高斯分布的空間信心建模,並以布萊爾分數進行校準。此方法能同步優化基礎定位準確度與信心可靠性,促進內省式自我批判。在七項挑戰基準上的廣泛實驗表明,HyperClick在實現最先進性能的同時,能提供良好校準的信心指標。透過實現顯性信心校準與內省式自我批判,HyperClick有效降低過度自信問題,為GUI自動化提供更高可靠性。
多模态位置编码对视觉语言模型至关重要,然而目前对多模态位置编码的系统性研究尚显不足。本文通过分析多模态旋转位置嵌入(RoPE)的两个核心组件——位置设计与频率分配,展开了全面研究。通过大量实验,我们总结出三大关键准则:位置连贯性、全频段利用以及文本先验保持,这些准则分别确保了布局明确性、表征丰富性以及预训练大语言模型知识的忠实迁移。基于这些发现,我们提出了多头旋转位置嵌入(MHRoPE)和交错式多模态旋转位置嵌入(MRoPE-I)两种即插即用的简易变体,无需改变模型架构。在多样化基准测试中,我们的方法始终优于现有方案,在通用多模态理解和细粒度多模态理解任务上均取得显著提升。代码将发布于https://github.com/JJJYmmm/Multimodal-RoPEs。
思维链(CoT)推理的冗长性阻碍了其在效率关键型应用中的大规模部署。近期兴起的隐式CoT方法将推理步骤编码于大语言模型的隐藏嵌入中(称为“隐式推理”),而非显式令牌中。该方法通过缩短推理长度和绕过部分大语言模型组件来加速CoT。然而现有隐式CoT方法面临两大挑战:(1)未能保持隐式推理(转化为自然语言时)与真实推理之间的语义对齐,导致CoT性能显著下降;(2)仅关注缩短隐式推理长度,却忽略了大语言模型生成单个隐式推理令牌的显著时间成本。为应对这些挑战,我们提出名为SemCoT的新型语义对齐隐式CoT框架。针对首个挑战,我们设计了基于对比训练的句子转换器来评估隐式与显式推理间的语义对齐度,该组件可在隐式推理优化过程中强制保持语义一致性。针对第二项挑战,我们通过知识蒸馏微调轻量级语言模型,构建高效的隐式推理生成器。该生成器在句子转换器的引导下,将真实推理蒸馏为语义对齐的隐式推理,同时优化准确率。SemCoT是首个通过联合优化令牌级生成速度与保持真实推理语义对齐来提升CoT效率的方法。大量实验表明,SemCoT在效率与效能上均优于现有最优方法。代码详见:https://github.com/YinhanHe123/SemCoT/。
縮放點積注意力(scaled dot-product attention)的二次計算成本是自迴歸語言模型擴展至長上下文的核心障礙。線性時間注意力與狀態空間模型(SSMs)雖提供可擴展替代方案,但通常受限於一階或基於核函數的近似,這可能限制其表達能力。本文提出高階線性注意力(HLA),這是一種因果性流式計算機制,通過緊湊的前綴充分統計量實現高階交互作用。在二階情形下,HLA 保持恒定大小的狀態,並以線性時間計算每個詞元的輸出,無需實體化任何 n×n 矩陣。我們給出封閉形式的流式恆等式、使用兩個附加摘要的嚴格因果掩碼變體,以及基於關聯掃描的塊並行訓練方案,該方案能精確重現序列遞歸的激活值。我們進一步概述向三階及以上階數的擴展。總體而言,這些成果使 HLA 成為兼具理論嚴謹性與可擴展性的基礎構件,融合了類注意力的數據依賴混合能力與現代循環架構的高效性。項目頁面:https://github.com/yifanzhang-pro/HLA。
多模态大语言模型(MLLMs)通过实现基于视觉输入的直接感知、推理和任务导向行动规划,推动了具身智能体的发展。然而,这种视觉驱动的具身智能体也带来了新的攻击面:视觉后门攻击。此类攻击中,智能体在场景未出现视觉触发器时表现正常,一旦触发器出现便会持续执行攻击者预设的多步策略。我们提出BEAT框架,首次实现基于环境物体作为触发器的MLLM具身智能体视觉后门注入。与文本触发器不同,物体触发器会因视角和光照条件产生巨大差异,导致可靠植入困难。BEAT通过以下方式解决该挑战:(1)构建覆盖多样化场景、任务及触发器布局的训练集,使智能体充分接触触发器变异;(2)引入两阶段训练方案,先进行监督微调(SFT),再采用新颖的对比触发器学习(CTL)。CTL将触发器判别构建为含触发器与无触发器输入的偏好学习问题,通过显式锐化决策边界确保精准的后门激活。在多种具身智能体基准测试和MLLMs中,BEAT实现了高达80%的攻击成功率,同时保持优异的正常任务性能,并能可靠泛化至分布外触发器布局。值得注意的是,在有限后门数据下,CTL相较传统SFT将后门激活准确率最高提升39%。这些发现揭示了基于MLLM的具身智能体存在重大却未被探索的安全风险,凸显了实际部署前构建鲁棒防御机制的必要性。
隨着大型語言模型在社會中扮演日益重要的角色,它們越來越需要應對不僅要求運用通用知識、還需符合特定人類價值體系的問題。因此,研究大型語言模型與人類價值觀的對齊已成為關鍵領域。然而既有研究大多聚焦於評估已完成訓練模型的對齊表現,忽略了模型學習表達人類價值觀的訓練動態過程。本研究探討模型在後訓練過程中,價值觀對齊何時以及如何形成。我們的分析區分了後訓練算法與數據集的影響,量化訓練期間價值觀漂移的幅度與時機。通過對不同規模的Llama-3和Qwen-3模型,以及主流監督微調(SFT)與偏好優化數據集和算法進行實驗,我們發現SFT階段通常確立模型的價值觀基礎,後續的偏好優化很少重新調整這些價值觀。此外,通過使用可精準操控價值觀的合成偏好數據集,我們發現即使保持偏好數據不變,不同的偏好優化算法也會導致不同的價值對齊結果。本研究揭示了後訓練過程中價值觀的習得機制,為改進數據策劃、優化模型與算法選擇以提升人類價值觀對齊提供了實踐洞見。
近期,通过引入世界模型增强视觉-语言-动作模型(VLA)在机器人策略学习领域展现出巨大潜力。然而,由于观测状态与动作序列两种模态间的本质差异,联合预测下一状态观测结果与动作序列仍面临挑战。为此,我们提出双流扩散框架(DUST),该框架通过世界模型增强的VLA架构解决模态冲突问题,并提升模型在多样化任务中的性能。具体而言,我们设计了一种多模态扩散Transformer架构,在保持独立模态流的同时实现跨模态知识共享。此外,我们引入针对各模态的独立噪声扰动机制和解耦流匹配损失函数。该设计使模型能够以双向方式学习联合分布,同时避免构建统一潜在空间的需求。基于训练过程中的模态解耦特性,我们还提出支持测试时缩放的分层联合采样方法,使动作与视觉标记能以不同速率异步演化。在RoboCasa和GR-1等仿真基准测试中,DUST相较基线方法最高可获得6%的性能提升,而测试时缩放策略可额外带来2-5%的增益。在Franka Research 3机器人实体实验中,DUST将任务成功率提高13%,证实其超越仿真环境的有效性。此外,基于BridgeV2无动作视频数据的预训练在RoboCasa任务中产生显著迁移增益,凸显DUST在大规模VLA预训练中的应用潜力。
我们推出Denario——一款作为科研助手设计的AI多智能体系统。该系统能够执行多种任务,包括生成创意、文献检索、制定研究计划、编写与执行代码、绘制图表,以及起草和审阅科学论文。其模块化架构既可处理特定任务(如生成创意),也能通过Cmbagent深度研究后端实现端到端的科学分析。本文详细阐述了Denario及其模块架构,并通过展示其在天体物理学、生物学、生物物理学、生物医学信息学、化学、材料科学、数学物理、医学、神经科学和行星科学等多学科领域生成的AI论文来印证系统能力。Denario还擅长融合跨学科理念,我们特别展示了一篇将量子物理学与机器学习方法应用于天体物理数据的论文作为例证。我们报告了领域专家对这些论文的评估结果,包括量化评分和类同行评议反馈,进而剖析当前系统的优势、不足与局限。最后,我们探讨了AI驱动科研的伦理影响,并反思该技术与科学哲学的内在关联。代码已公开发布于https://github.com/AstroPilot-AI/Denario,用户也可通过https://huggingface.co/spaces/astropilot-ai/Denario 直接运行网页演示版,完整应用将部署至云端。
數學推理是大型語言模型面臨的核心挑戰,不僅要求答案正確,更需要可靠的推理過程。可驗證獎勵的強化學習(RLVR)已成為提升此類能力的潛在途徑,但其能否真正培養深度推理能力尚不明確。我們在兩個具有完全可驗證解的組合問題(活動排程與最長遞增子序列)上研究RLVR,採用精心設計且具唯一最佳解的數據集。通過多種獎勵機制測試發現,RLVR雖能提升評估指標,但往往通過強化表面啟發式規則而非習得新推理策略實現。這些結果揭示了RLVR泛化能力的局限,強調需建立能區分真實數學推理與捷徑利用的基準測試,從而提供對進展的可靠衡量。程式碼詳見https://github.com/xashru/rlvr-seq-generalization。
视觉-语言-动作模型(VLAs)作为具身智能的重要前沿领域,致力于实现数字知识与物理世界交互的融合。尽管这类模型已展现出卓越的通用能力,但其底层大规模基础模型固有的巨大计算与数据需求,严重制约了实际部署。为应对这些紧迫挑战,本文首次从数据-模型-训练全流程角度,对高效视觉-语言-动作模型(Efficient VLAs)展开系统性综述。我们提出统一分类法,将当前技术归纳为三大核心支柱:(1)聚焦高效架构与模型压缩的高效模型设计;(2)降低模型学习过程中计算负担的高效训练;(3)解决机器人数据获取与利用瓶颈的高效数据收集。通过在此框架下对前沿方法进行批判性审视,本综述不仅为学界建立基础参考,还总结了代表性应用场景,厘清关键挑战,并规划未来研究路线图。我们持续维护的项目页面将同步最新进展:https://evla-survey.github.io/
大型语言模型(LLMs)正在通过让用户以会话方式表达偏好并获取推荐,重塑推荐系统的范式。然而,将LLMs与推荐任务对齐仍存在挑战:预训练LLMs常生成目录外的项目,违反输出格式要求,且其排序质量在生成列表末尾急剧下降。为此,我们提出ConvRec-R1——一个用于基于LLM的会话推荐系统端到端训练的双阶段框架。在第一阶段,我们通过重映射-反思-调整流程构建行为克隆数据集,利用强大的黑盒LLMs生成高质量、基于目录的示范样本,为强化学习训练提供热启动。在第二阶段,我们提出Rank-GRPO,这是针对具有排序式输出任务的群组相对策略优化(GRPO)的原则性扩展。Rank-GRPO将推荐列表中的每个排名位置(而非过于细粒度的词元或过于粗粒度的序列)作为基本单元,通过重新定义奖励函数消除非因果性信用分配,并基于按排名分层的词元概率几何平均数引入排名层级的重要性比率,以稳定策略更新。在公开Reddit-v2数据集上的实验表明,ConvRec-R1比GRPO类基线收敛更快,并实现了更高的召回率和NDCG指标。代码与数据集已发布于https://github.com/yaochenzhu/Rank-GRPO。
精確的建築物實例分割與高度分類對於都市規劃、三維城市建模和基礎設施監測至關重要。本文針對YOLO系列深度學習模型的最新進展YOLOv11,聚焦其在衛星影像上實現建築物聯合提取與離散高度分類的應用進行詳細分析。YOLOv11通過引入能更有效融合多尺度特徵、提升目標定位精度並增強複雜城市場景表現的高效架構,延續了早期YOLO模型的優勢。基於DFC2023 Track 2數據集(涵蓋12個城市超過12.5萬個標註建築物),我們採用精確率、召回率、F1分數和平均精度均值(mAP)等指標評估YOLOv11的性能。實驗結果表明,YOLOv11在保持五個預定義高度層級分類魯棒性的同時,實現了60.4% mAP@50和38.3% mAP@50–95的優異實例分割性能。該模型在處理遮擋、複雜建築形態及類別不平衡(特別是罕見高層建築)方面表現突出。對比分析證實,YOLOv11在檢測精度與推理速度上均超越早期多任務框架,使其特別適合大規模城市實時製圖。本研究揭示了YOLOv11通過流線型分類高度建模推動語義化城市重建的潛力,為遙感與地理空間智能領域的未來發展提供了可操作的見解。
健康相關的虛假資訊極其普遍且潛藏危害,尤其當論述扭曲或誤解科學發現時更難辨識。本研究基於MISSCI數據集與框架,探討合成數據生成與輕量級微調技術對大型語言模型識別謬誤論證能力的影響。我們提出MisSynth流程,應用檢索增強生成技術創建謬論合成樣本,並以此對LLM模型進行微調。實驗結果顯示,經微調的模型相較原始基準線獲得顯著準確度提升:例如LLaMA 3.1 8B微調模型在MISSCI測試集上的F1分數較基準線絕對提升超過35%。我們證實透過合成謬論數據增強有限標註資源,能大幅提升LLM在真實場景科學虛假資訊分類任務的零樣本表現,即使僅使用有限計算資源亦能實現。程式碼與合成數據集公開於https://github.com/mxpoliakov/MisSynth。
文本到图像(T2I)模型正日益广泛地应用于合成数据集的生成,但为分类任务生成有效的合成训练数据仍具挑战性。基于少量真实样本对T2I模型进行微调可提升合成训练数据的质量,但同时也可能导致过拟合并降低生成样本的多样性。我们提出BOB(BeyondOBjects)微调策略以缓解细粒度分类中的这些问题。给定少量真实样本集,我们首先提取类别无关属性(如场景背景和物体姿态),随后在T2I模型微调过程中显式约束这些属性,并在生成阶段对其进行边缘化处理。该设计能有效缓解过拟合、保留T2I模型的生成先验、降低估计误差,并进一步减少非预期的类间关联。通过在多个T2I模型、骨干网络和数据集上的广泛实验表明,当采用合成数据增强时,我们的方法在低样本细粒度分类任务中实现了最先进的性能。具体而言,在Aircraft数据集上,BOB相较DataDream提升7.4%(当使用5张真实图像与100张合成图像增强微调CLIP分类器时,准确率从50.0%提升至57.4%)。在四项基准测试中,有三项采用BOB增强的5张真实图像微调下游模型的效果优于直接使用10张真实图像微调。总体而言,BOB在24个实验设置中的18个表现优于现有技术,其中14个设置的准确率提升超过2%。
卡牌游戏被广泛用于研究不确定性下的序列决策问题,在谈判、金融和网络安全领域具有现实对应模型。根据控制流模式,这类游戏通常分为三类:严格顺序型(玩家轮替执行单一动作)、确定性响应型(特定动作触发固定结果)以及无界互惠响应型(允许交替对抗)。一种研究较少但策略丰富的结构是有限单边响应机制——当玩家行动短暂将控制权转移给对手时,对方必须通过一个或多个操作满足固定条件才能结束回合。我们将具有这种机制的游戏称为有限单边响应游戏(BORGs)。本文以改良版《地产大亨:交易》作为基准环境来分离该动态机制,其中"收取租金"行动会强制对手选择支付资产。金牌算法反事实遗憾最小化(CFR)无需新型算法扩展即可收敛于有效策略。我们构建的轻量级全栈研究平台整合了游戏环境、并行化CFR运行时及可人机对战的网页界面。经训练的CFR智能体及源代码已发布于https://monopolydeal.ai。