ChatPaper.aiChatPaper

Jugar para Generalizar: Aprender a Razonar a Través del Juego

Play to Generalize: Learning to Reason Through Game Play

June 9, 2025
Autores: Yunfei Xie, Yinsong Ma, Shiyi Lan, Alan Yuille, Junfei Xiao, Chen Wei
cs.AI

Resumen

El desarrollo de capacidades de razonamiento generalizables en modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) sigue siendo un desafío. Motivados por la literatura de la ciencia cognitiva que sugiere que el juego promueve habilidades cognitivas transferibles, proponemos un nuevo paradigma de posentrenamiento, denominado Aprendizaje Visual a través del Juego (ViGaL, por sus siglas en inglés), en el que los MLLMs desarrollan generalización fuera del dominio del razonamiento multimodal mediante la participación en juegos de tipo arcade. Específicamente, demostramos que el posentrenamiento de un MLLM de 7 mil millones de parámetros mediante aprendizaje por refuerzo (RL, por sus siglas en inglés) en juegos simples de tipo arcade, como Snake, mejora significativamente su rendimiento en tareas posteriores en benchmarks de matemáticas multimodales como MathVista y en preguntas multidisciplinarias como MMMU, sin haber visto soluciones detalladas, ecuaciones o diagramas durante el RL, lo que sugiere la captura de habilidades de razonamiento transferibles. Notablemente, nuestro modelo supera a modelos especializados ajustados en datos de razonamiento multimodal en benchmarks de razonamiento multimodal, mientras mantiene el rendimiento del modelo base en benchmarks visuales generales, un desafío en el que los modelos especializados a menudo fallan. Nuestros hallazgos sugieren un nuevo paradigma de posentrenamiento: los juegos sintéticos basados en reglas pueden servir como tareas pretexto controlables y escalables que desbloquean habilidades generalizables de razonamiento multimodal en los MLLMs.
English
Developing generalizable reasoning capabilities in multimodal large language models (MLLMs) remains challenging. Motivated by cognitive science literature suggesting that gameplay promotes transferable cognitive skills, we propose a novel post-training paradigm, Visual Game Learning, or ViGaL, where MLLMs develop out-of-domain generalization of multimodal reasoning through playing arcade-like games. Specifically, we show that post-training a 7B-parameter MLLM via reinforcement learning (RL) on simple arcade-like games, e.g. Snake, significantly enhances its downstream performance on multimodal math benchmarks like MathVista, and on multi-discipline questions like MMMU, without seeing any worked solutions, equations, or diagrams during RL, suggesting the capture of transferable reasoning skills. Remarkably, our model outperforms specialist models tuned on multimodal reasoning data in multimodal reasoning benchmarks, while preserving the base model's performance on general visual benchmarks, a challenge where specialist models often fall short. Our findings suggest a new post-training paradigm: synthetic, rule-based games can serve as controllable and scalable pre-text tasks that unlock generalizable multimodal reasoning abilities in MLLMs.
PDF133June 10, 2025