Odysseus: Skalierung von VLMs für Entscheidungsfindung in Spielen über 100+ Runden mittels Reinforcement Learning
Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning
May 1, 2026
Autoren: Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin
cs.AI
Zusammenfassung
Angesichts der rasant wachsenden Fähigkeiten von Vision-Language-Modellen (VLMs) hat sich deren Erweiterung auf interaktive Entscheidungsfindungsaufgaben, wie etwa Videospiele, als vielversprechende Forschungsrichtung erwiesen. Bisherige Ansätze stützen sich jedoch entweder auf umfangreich supervidiertes Fine-Tuning (SFT) mit menschlichen Spielverläufen oder wenden Reinforcement Learning (RL) nur in relativ kurzfristigen Settings an (typischerweise etwa 20–30 Spielzüge). In dieser Arbeit untersuchen wir das RL-basierte Training von VLMs für langfristige Entscheidungsfindung in Super Mario Land, einer visuell basierten Umgebung, die über 100 Interaktionen mit koordinierter Wahrnehmung, logischem Denken und Handeln erfordert. Wir beginnen mit einer systematischen Untersuchung der wichtigsten algorithmischen Komponenten und schlagen eine angepasste Variante von PPO mit einem schlanken, zugbezogenen Kritiker vor, was die Trainingsstabilität und Probeneffizienz im Vergleich zu kritikerfreien Methoden wie GRPO und Reinforce++ erheblich verbessert. Wir zeigen weiter, dass vortrainierte VLMs starke Aktionspriors bereitstellen, was die Probeneffizienz während des RL-Trainings signifikant steigert und den Bedarf an manuellen Designentscheidungen wie Aktionsengineering im Vergleich zu klassischem Deep RL ohne Vortraining reduziert. Aufbauend auf diesen Erkenntnissen stellen wir Odysseus vor, ein offenes Trainingsframework für VLM-Agenten, das erhebliche Verbesserungen über mehrere Level des Spiels hinweg erzielt und im Durchschnitt mindestens dreimal höhere Spielstände als Spitzenmodelle erreicht. Darüber hinaus zeigen die trainierten Modelle konsistente Verbesserungen sowohl unter In-Game- als auch Cross-Game-Generalisationseinstellungen, wobei sie gleichzeitig ihre allgemeinen Domänenfähigkeiten beibehalten. Insgesamt identifizieren unsere Ergebnisse Schlüsselfaktoren für stabiles und effektives RL in langfristigen, multimodalen Settings und bieten praktische Anleitungen für die Entwicklung von VLMs als verkörperte Agenten.
English
Given the rapidly growing capabilities of vision-language models (VLMs), extending them to interactive decision-making tasks such as video games has emerged as a promising frontier. However, existing approaches either rely on large-scale supervised fine-tuning (SFT) on human trajectories or apply reinforcement learning (RL) only in relatively short-horizon settings (typically around 20--30 turns). In this work, we study RL-based training of VLMs for long-horizon decision-making in Super Mario Land, a visually grounded environment requiring 100+ turns of interaction with coordinated perception, reasoning, and action. We begin with a systematic investigation of key algorithmic components and propose an adapted variant of PPO with a lightweight turn-level critic, which substantially improves training stability and sample efficiency over critic-free methods such as GRPO and Reinforce++. We further show that pretrained VLMs provide strong action priors, significantly improving sample efficiency during RL training and reducing the need for manual design choices such as action engineering, compared to classical deep RL trained from scratch. Building on these insights, we introduce Odysseus, an open training framework for VLM agents, achieving substantial gains across multiple levels of the game and at least 3 times average game progresses than frontier models. Moreover, the trained models exhibit consistent improvements under both in-game and cross-game generalization settings, while maintaining general-domain capabilities. Overall, our results identify key ingredients for making RL stable and effective in long-horizon, multi-modal settings, and provide practical guidance for developing VLMs as embodied agents.