오디세우스: 강화 학습을 통한 게임 내 100+ 턴 의사 결정을 위한 시각적 언어 모델 확장
Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning
May 1, 2026
저자: Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin
cs.AI
초록
시각-언어 모델(VLM)의 급속한 발전에 따라 비디오 게임과 같은 상호작용형 의사결정 작업으로의 확장이 유망한 연구 분야로 부상하고 있습니다. 그러나 기존 접근법은 인간 실행 궤적에 대한 대규모 지도 미세 조정(SFT)에 의존하거나, 비교적 단기간 설정(일반적으로 약 20-30턴)에서만 강화 학습(RL)을 적용하고 있습니다. 본 연구에서는 시각적 기반 환경으로 인식, 추론, 행동의 조정이 필요하며 100턴 이상의 상호작용을 요구하는 Super Mario Land에서 장기 의사결정을 위해 VLM의 RL 기반 훈련을 연구합니다. 우리는 먼저 주요 알고리즘 구성 요소에 대한 체계적인 조사를 수행하고, 경량화된 턴 수준 비평가를 갖춘 PPO의 수정 변형을 제안합니다. 이는 GRTO 및 Reinforce++와 같은 비평가 무료 방법론 대비 훈련 안정성과 샘플 효율성을 크게 향상시킵니다. 더 나아가 사전 훈련된 VLM이 강력한 행동 사전 확률을 제공하여 RL 훈련期間 동안 샘플 효율성을 크게 개선하고, 처음부터 훈련된 기존 심층 RL과 비교하여 행동 엔지니어링과 같은 수동 설계 선택의 필요성을 줄인다는 것을 보여줍니다. 이러한 통찰력을 바탕으로 우리는 Odysseus라는 VLM 에이전트용 오픈 훈련 프레임워크를 소개하며, 게임의 여러 레벨에서 상당한 성능 향상을 달성하고 최첨단 모델 대비 평균 게임 진행도가 최소 3배 이상 높았습니다. 또한 훈련된 모델은 일반 영역 능력을 유지하면서도 게임 내 및 게임 간 일반화 설정 하에서 모두 일관된 향상을 보였습니다. 종합적으로, 우리의 결과는 장기간, 다중 모달 설정에서 RL을 안정적이고 효과적으로 만드는 핵심 요소를 규명하며, 구현화된 에이전트로서 VLM을 개발하기 위한 실용적인 지침을 제공합니다.
English
Given the rapidly growing capabilities of vision-language models (VLMs), extending them to interactive decision-making tasks such as video games has emerged as a promising frontier. However, existing approaches either rely on large-scale supervised fine-tuning (SFT) on human trajectories or apply reinforcement learning (RL) only in relatively short-horizon settings (typically around 20--30 turns). In this work, we study RL-based training of VLMs for long-horizon decision-making in Super Mario Land, a visually grounded environment requiring 100+ turns of interaction with coordinated perception, reasoning, and action. We begin with a systematic investigation of key algorithmic components and propose an adapted variant of PPO with a lightweight turn-level critic, which substantially improves training stability and sample efficiency over critic-free methods such as GRPO and Reinforce++. We further show that pretrained VLMs provide strong action priors, significantly improving sample efficiency during RL training and reducing the need for manual design choices such as action engineering, compared to classical deep RL trained from scratch. Building on these insights, we introduce Odysseus, an open training framework for VLM agents, achieving substantial gains across multiple levels of the game and at least 3 times average game progresses than frontier models. Moreover, the trained models exhibit consistent improvements under both in-game and cross-game generalization settings, while maintaining general-domain capabilities. Overall, our results identify key ingredients for making RL stable and effective in long-horizon, multi-modal settings, and provide practical guidance for developing VLMs as embodied agents.