在多模态大语言模型(MLLMs)中开发可泛化的推理能力仍具挑战性。受认知科学文献启发,游戏玩法能够促进可迁移的认知技能,我们提出了一种新颖的后训练范式——视觉游戏学习(Visual Game Learning,简称ViGaL),通过让MLLMs玩街机类游戏,发展跨领域的多模态推理泛化能力。具体而言,我们展示了对一个拥有70亿参数的MLLM通过强化学习(RL)在简单街机类游戏(如贪吃蛇)上进行后训练,显著提升了其在多模态数学基准(如MathVista)及跨学科问题(如MMMU)上的下游表现,而在此过程中并未接触任何解题步骤、方程或图表,这表明模型掌握了可迁移的推理技能。值得注意的是,我们的模型在多模态推理基准测试中超越了专门针对多模态推理数据调优的专业模型,同时保持了基础模型在通用视觉基准上的性能,这一挑战往往是专业模型难以克服的。我们的发现揭示了一种新的后训练范式:基于规则的合成游戏可作为可控且可扩展的预文本任务,解锁MLLMs中可泛化的多模态推理能力。
Yin Huang, Yifan Ethan Xu, Kai Sun, Vera Yan, Alicia Sun, Haidar Khan, Jimmy Nguyen, Mohammad Kachuee, Zhaojiang Lin, Yue Liu, Aaron Colak, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
Sabri Eyuboglu, Ryan Ehrlich, Simran Arora, Neel Guha, Dylan Zinsley, Emily Liu, Will Tennien, Atri Rudra, James Zou, Azalia Mirhoseini, Christopher Re