Speel om te generaliseren: Leren redeneren door middel van spel
Play to Generalize: Learning to Reason Through Game Play
June 9, 2025
Auteurs: Yunfei Xie, Yinsong Ma, Shiyi Lan, Alan Yuille, Junfei Xiao, Chen Wei
cs.AI
Samenvatting
Het ontwikkelen van generaliseerbare redeneervaardigheden in multimodale grote taalmodellen (MLLMs) blijft een uitdaging. Geïnspireerd door de cognitieve wetenschap, die suggereert dat gameplay overdraagbare cognitieve vaardigheden bevordert, stellen we een nieuw post-trainingsparadigma voor, Visual Game Learning, oftewel ViGaL, waarbij MLLMs generalisatie van multimodaal redeneren buiten hun domein ontwikkelen door het spelen van arcade-achtige spellen. Specifiek tonen we aan dat het post-trainen van een 7B-parameter MLLM via reinforcement learning (RL) op eenvoudige arcade-achtige spellen, zoals Snake, de prestaties aanzienlijk verbetert op multimodale wiskundige benchmarks zoals MathVista en op multidisciplinaire vragen zoals MMMU, zonder dat er tijdens de RL gewerkte oplossingen, vergelijkingen of diagrammen worden gezien. Dit suggereert dat overdraagbare redeneervaardigheden worden vastgelegd. Opmerkelijk is dat ons model gespecialiseerde modellen die zijn afgestemd op multimodale redeneergegevens, overtreft in multimodale redeneerbenchmarks, terwijl de prestaties van het basismodel op algemene visuele benchmarks behouden blijven – een uitdaging waar gespecialiseerde modellen vaak tekortschieten. Onze bevindingen suggereren een nieuw post-trainingsparadigma: synthetische, op regels gebaseerde spellen kunnen dienen als controleerbare en schaalbare pre-teksttaken die generaliseerbare multimodale redeneervaardigheden in MLLMs ontgrendelen.
English
Developing generalizable reasoning capabilities in multimodal large language
models (MLLMs) remains challenging. Motivated by cognitive science literature
suggesting that gameplay promotes transferable cognitive skills, we propose a
novel post-training paradigm, Visual Game Learning, or ViGaL, where MLLMs
develop out-of-domain generalization of multimodal reasoning through playing
arcade-like games. Specifically, we show that post-training a 7B-parameter MLLM
via reinforcement learning (RL) on simple arcade-like games, e.g. Snake,
significantly enhances its downstream performance on multimodal math benchmarks
like MathVista, and on multi-discipline questions like MMMU, without seeing any
worked solutions, equations, or diagrams during RL, suggesting the capture of
transferable reasoning skills. Remarkably, our model outperforms specialist
models tuned on multimodal reasoning data in multimodal reasoning benchmarks,
while preserving the base model's performance on general visual benchmarks, a
challenge where specialist models often fall short. Our findings suggest a new
post-training paradigm: synthetic, rule-based games can serve as controllable
and scalable pre-text tasks that unlock generalizable multimodal reasoning
abilities in MLLMs.