ChatPaper.aiChatPaper

일반화를 위한 플레이: 게임 플레이를 통한 추론 학습

Play to Generalize: Learning to Reason Through Game Play

June 9, 2025
저자: Yunfei Xie, Yinsong Ma, Shiyi Lan, Alan Yuille, Junfei Xiao, Chen Wei
cs.AI

초록

다중모달 대형 언어 모델(MLLMs)에서 일반화 가능한 추론 능력을 개발하는 것은 여전히 어려운 과제로 남아 있다. 인지과학 문헌에서 게임 플레이가 전이 가능한 인지 기술을 촉진한다는 점에 착안하여, 우리는 새로운 사후 훈련 패러다임인 시각적 게임 학습(Visual Game Learning, ViGaL)을 제안한다. 이 패러다임에서는 MLLMs가 아케이드 스타일 게임을 통해 다중모달 추론의 도메인 외 일반화 능력을 개발한다. 구체적으로, 우리는 7B 파라미터 MLLM을 Snake와 같은 간단한 아케이드 스타일 게임에서 강화 학습(RL)을 통해 사후 훈련함으로써, MathVista와 같은 다중모달 수학 벤치마크와 MMMU와 같은 다학제적 질문에서의 하류 작업 성능이 크게 향상됨을 보여준다. 이는 RL 과정에서 해결 방법, 방정식, 또는 다이어그램을 전혀 보지 않고도 전이 가능한 추론 기술을 포착했음을 시사한다. 특히, 우리의 모델은 다중모달 추론 데이터에 맞춰진 전문가 모델을 다중모달 추론 벤치마크에서 능가하면서도, 일반 시각 벤치마크에서 기본 모델의 성능을 유지한다. 이는 전문가 모델들이 종종 실패하는 과제이다. 우리의 연구 결과는 합성적이고 규칙 기반의 게임이 MLLMs에서 일반화 가능한 다중모달 추론 능력을 해제할 수 있는 통제 가능하고 확장 가능한 사전 텍스트 작업으로서 새로운 사후 훈련 패러다임을 제시한다.
English
Developing generalizable reasoning capabilities in multimodal large language models (MLLMs) remains challenging. Motivated by cognitive science literature suggesting that gameplay promotes transferable cognitive skills, we propose a novel post-training paradigm, Visual Game Learning, or ViGaL, where MLLMs develop out-of-domain generalization of multimodal reasoning through playing arcade-like games. Specifically, we show that post-training a 7B-parameter MLLM via reinforcement learning (RL) on simple arcade-like games, e.g. Snake, significantly enhances its downstream performance on multimodal math benchmarks like MathVista, and on multi-discipline questions like MMMU, without seeing any worked solutions, equations, or diagrams during RL, suggesting the capture of transferable reasoning skills. Remarkably, our model outperforms specialist models tuned on multimodal reasoning data in multimodal reasoning benchmarks, while preserving the base model's performance on general visual benchmarks, a challenge where specialist models often fall short. Our findings suggest a new post-training paradigm: synthetic, rule-based games can serve as controllable and scalable pre-text tasks that unlock generalizable multimodal reasoning abilities in MLLMs.
PDF153June 10, 2025