ChatPaper.aiChatPaper

Spielen, um zu verallgemeinern: Lernen, durch Spielen zu schlussfolgern

Play to Generalize: Learning to Reason Through Game Play

June 9, 2025
Autoren: Yunfei Xie, Yinsong Ma, Shiyi Lan, Alan Yuille, Junfei Xiao, Chen Wei
cs.AI

Zusammenfassung

Die Entwicklung generalisierbarer Fähigkeiten zur multimodalen Argumentation in großen multimodalen Sprachmodellen (MLLMs) bleibt eine Herausforderung. Inspiriert durch die kognitionswissenschaftliche Literatur, die nahelegt, dass Spielen übertragbare kognitive Fähigkeiten fördert, schlagen wir ein neuartiges Nachschulungsparadigma vor: Visual Game Learning (ViGaL), bei dem MLLMs durch das Spielen von Arcade-ähnlichen Spielen eine domänenübergreifende Generalisierung der multimodalen Argumentation entwickeln. Konkret zeigen wir, dass die Nachschulung eines 7-Milliarden-Parameter-MLLMs mittels Reinforcement Learning (RL) auf einfachen Arcade-ähnlichen Spielen, wie z. B. Snake, dessen Leistung auf multimodalen mathematischen Benchmarks wie MathVista und auf multidisziplinären Fragen wie MMMU signifikant verbessert, ohne dass während des RL-Lernprozesses Lösungen, Gleichungen oder Diagramme gesehen wurden. Dies deutet auf die Erfassung übertragbarer Argumentationsfähigkeiten hin. Bemerkenswerterweise übertrifft unser Modell spezialisierte Modelle, die auf multimodale Argumentationsdaten abgestimmt sind, in multimodalen Argumentationsbenchmarks, während es die Leistung des Basismodells auf allgemeinen visuellen Benchmarks beibehält – eine Herausforderung, bei der spezialisierte Modelle oft scheitern. Unsere Ergebnisse legen ein neues Nachschulungsparadigma nahe: synthetische, regelbasierte Spiele können als kontrollierbare und skalierbare Voraufgaben dienen, die generalisierbare multimodale Argumentationsfähigkeiten in MLLMs freisetzen.
English
Developing generalizable reasoning capabilities in multimodal large language models (MLLMs) remains challenging. Motivated by cognitive science literature suggesting that gameplay promotes transferable cognitive skills, we propose a novel post-training paradigm, Visual Game Learning, or ViGaL, where MLLMs develop out-of-domain generalization of multimodal reasoning through playing arcade-like games. Specifically, we show that post-training a 7B-parameter MLLM via reinforcement learning (RL) on simple arcade-like games, e.g. Snake, significantly enhances its downstream performance on multimodal math benchmarks like MathVista, and on multi-discipline questions like MMMU, without seeing any worked solutions, equations, or diagrams during RL, suggesting the capture of transferable reasoning skills. Remarkably, our model outperforms specialist models tuned on multimodal reasoning data in multimodal reasoning benchmarks, while preserving the base model's performance on general visual benchmarks, a challenge where specialist models often fall short. Our findings suggest a new post-training paradigm: synthetic, rule-based games can serve as controllable and scalable pre-text tasks that unlock generalizable multimodal reasoning abilities in MLLMs.
PDF133June 10, 2025