Spielen, um zu verallgemeinern: Lernen, durch Spielen zu schlussfolgern
Play to Generalize: Learning to Reason Through Game Play
June 9, 2025
Autoren: Yunfei Xie, Yinsong Ma, Shiyi Lan, Alan Yuille, Junfei Xiao, Chen Wei
cs.AI
Zusammenfassung
Die Entwicklung generalisierbarer Fähigkeiten zur multimodalen Argumentation in großen multimodalen Sprachmodellen (MLLMs) bleibt eine Herausforderung. Inspiriert durch die kognitionswissenschaftliche Literatur, die nahelegt, dass Spielen übertragbare kognitive Fähigkeiten fördert, schlagen wir ein neuartiges Nachschulungsparadigma vor: Visual Game Learning (ViGaL), bei dem MLLMs durch das Spielen von Arcade-ähnlichen Spielen eine domänenübergreifende Generalisierung der multimodalen Argumentation entwickeln. Konkret zeigen wir, dass die Nachschulung eines 7-Milliarden-Parameter-MLLMs mittels Reinforcement Learning (RL) auf einfachen Arcade-ähnlichen Spielen, wie z. B. Snake, dessen Leistung auf multimodalen mathematischen Benchmarks wie MathVista und auf multidisziplinären Fragen wie MMMU signifikant verbessert, ohne dass während des RL-Lernprozesses Lösungen, Gleichungen oder Diagramme gesehen wurden. Dies deutet auf die Erfassung übertragbarer Argumentationsfähigkeiten hin. Bemerkenswerterweise übertrifft unser Modell spezialisierte Modelle, die auf multimodale Argumentationsdaten abgestimmt sind, in multimodalen Argumentationsbenchmarks, während es die Leistung des Basismodells auf allgemeinen visuellen Benchmarks beibehält – eine Herausforderung, bei der spezialisierte Modelle oft scheitern. Unsere Ergebnisse legen ein neues Nachschulungsparadigma nahe: synthetische, regelbasierte Spiele können als kontrollierbare und skalierbare Voraufgaben dienen, die generalisierbare multimodale Argumentationsfähigkeiten in MLLMs freisetzen.
English
Developing generalizable reasoning capabilities in multimodal large language
models (MLLMs) remains challenging. Motivated by cognitive science literature
suggesting that gameplay promotes transferable cognitive skills, we propose a
novel post-training paradigm, Visual Game Learning, or ViGaL, where MLLMs
develop out-of-domain generalization of multimodal reasoning through playing
arcade-like games. Specifically, we show that post-training a 7B-parameter MLLM
via reinforcement learning (RL) on simple arcade-like games, e.g. Snake,
significantly enhances its downstream performance on multimodal math benchmarks
like MathVista, and on multi-discipline questions like MMMU, without seeing any
worked solutions, equations, or diagrams during RL, suggesting the capture of
transferable reasoning skills. Remarkably, our model outperforms specialist
models tuned on multimodal reasoning data in multimodal reasoning benchmarks,
while preserving the base model's performance on general visual benchmarks, a
challenge where specialist models often fall short. Our findings suggest a new
post-training paradigm: synthetic, rule-based games can serve as controllable
and scalable pre-text tasks that unlock generalizable multimodal reasoning
abilities in MLLMs.