Speel om te generaliseren: Leren redeneren door middel van spel

Samenvatting

Het ontwikkelen van generaliseerbare redeneervaardigheden in multimodale grote taalmodellen (MLLMs) blijft een uitdaging. Geïnspireerd door de cognitieve wetenschap, die suggereert dat gameplay overdraagbare cognitieve vaardigheden bevordert, stellen we een nieuw post-trainingsparadigma voor, Visual Game Learning, oftewel ViGaL, waarbij MLLMs generalisatie van multimodaal redeneren buiten hun domein ontwikkelen door het spelen van arcade-achtige spellen. Specifiek tonen we aan dat het post-trainen van een 7B-parameter MLLM via reinforcement learning (RL) op eenvoudige arcade-achtige spellen, zoals Snake, de prestaties aanzienlijk verbetert op multimodale wiskundige benchmarks zoals MathVista en op multidisciplinaire vragen zoals MMMU, zonder dat er tijdens de RL gewerkte oplossingen, vergelijkingen of diagrammen worden gezien. Dit suggereert dat overdraagbare redeneervaardigheden worden vastgelegd. Opmerkelijk is dat ons model gespecialiseerde modellen die zijn afgestemd op multimodale redeneergegevens, overtreft in multimodale redeneerbenchmarks, terwijl de prestaties van het basismodel op algemene visuele benchmarks behouden blijven – een uitdaging waar gespecialiseerde modellen vaak tekortschieten. Onze bevindingen suggereren een nieuw post-trainingsparadigma: synthetische, op regels gebaseerde spellen kunnen dienen als controleerbare en schaalbare pre-teksttaken die generaliseerbare multimodale redeneervaardigheden in MLLMs ontgrendelen.

English

Developing generalizable reasoning capabilities in multimodal large language models (MLLMs) remains challenging. Motivated by cognitive science literature suggesting that gameplay promotes transferable cognitive skills, we propose a novel post-training paradigm, Visual Game Learning, or ViGaL, where MLLMs develop out-of-domain generalization of multimodal reasoning through playing arcade-like games. Specifically, we show that post-training a 7B-parameter MLLM via reinforcement learning (RL) on simple arcade-like games, e.g. Snake, significantly enhances its downstream performance on multimodal math benchmarks like MathVista, and on multi-discipline questions like MMMU, without seeing any worked solutions, equations, or diagrams during RL, suggesting the capture of transferable reasoning skills. Remarkably, our model outperforms specialist models tuned on multimodal reasoning data in multimodal reasoning benchmarks, while preserving the base model's performance on general visual benchmarks, a challenge where specialist models often fall short. Our findings suggest a new post-training paradigm: synthetic, rule-based games can serve as controllable and scalable pre-text tasks that unlock generalizable multimodal reasoning abilities in MLLMs.

Speel om te generaliseren: Leren redeneren door middel van spel

Play to Generalize: Learning to Reason Through Game Play

Samenvatting

Support