ChatPaper.aiChatPaper

Odiseo: Escalando Modelos de Lenguaje Visual a Toma de Decisiones de 100+ Turnos en Juegos mediante Aprendizaje por Refuerzo

Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning

May 1, 2026
Autores: Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin
cs.AI

Resumen

Dadas las crecientes capacidades de los modelos de visión y lenguaje (VLM), extenderlos a tareas de toma de decisiones interactivas, como los videojuegos, ha surgido como una frontera prometedora. Sin embargo, los enfoques existentes dependen del ajuste fino supervisado (SFT) a gran escala en trayectorias humanas o aplican el aprendizaje por refuerzo (RL) solo en entornos de horizonte relativamente corto (típicamente alrededor de 20-30 turnos). En este trabajo, estudiamos el entrenamiento basado en RL de VLMs para la toma de decisiones de horizonte largo en *Super Mario Land*, un entorno visual que requiere más de 100 turnos de interacción con percepción, razonamiento y acción coordinados. Comenzamos con una investigación sistemática de los componentes algorítmicos clave y proponemos una variante adaptada de PPO con un crítico ligero a nivel de turno, lo que mejora sustancialmente la estabilidad del entrenamiento y la eficiencia muestral frente a métodos sin crítico como GRPO y Reinforce++. Además, demostramos que los VLMs preentrenados proporcionan fuertes *priors* de acción, mejorando significativamente la eficiencia muestral durante el entrenamiento con RL y reduciendo la necesidad de elecciones de diseño manual, como la ingeniería de acciones, en comparación con el RL clásico entrenado desde cero. Sobre la base de estas ideas, presentamos Odysseus, un marco de entrenamiento abierto para agentes VLM, que logra ganancias sustanciales en múltiples niveles del juego y al menos 3 veces más progreso promedio en el juego que los modelos de vanguardia. Además, los modelos entrenados exhiben mejoras consistentes tanto en entornos de generalización dentro del juego como entre juegos, manteniendo al mismo tiempo capacidades en dominios generales. En general, nuestros resultados identifican ingredientes clave para que el RL sea estable y efectivo en entornos multimodales de horizonte largo, y proporcionan una guía práctica para desarrollar VLMs como agentes corporizados.
English
Given the rapidly growing capabilities of vision-language models (VLMs), extending them to interactive decision-making tasks such as video games has emerged as a promising frontier. However, existing approaches either rely on large-scale supervised fine-tuning (SFT) on human trajectories or apply reinforcement learning (RL) only in relatively short-horizon settings (typically around 20--30 turns). In this work, we study RL-based training of VLMs for long-horizon decision-making in Super Mario Land, a visually grounded environment requiring 100+ turns of interaction with coordinated perception, reasoning, and action. We begin with a systematic investigation of key algorithmic components and propose an adapted variant of PPO with a lightweight turn-level critic, which substantially improves training stability and sample efficiency over critic-free methods such as GRPO and Reinforce++. We further show that pretrained VLMs provide strong action priors, significantly improving sample efficiency during RL training and reducing the need for manual design choices such as action engineering, compared to classical deep RL trained from scratch. Building on these insights, we introduce Odysseus, an open training framework for VLM agents, achieving substantial gains across multiple levels of the game and at least 3 times average game progresses than frontier models. Moreover, the trained models exhibit consistent improvements under both in-game and cross-game generalization settings, while maintaining general-domain capabilities. Overall, our results identify key ingredients for making RL stable and effective in long-horizon, multi-modal settings, and provide practical guidance for developing VLMs as embodied agents.
PDF41May 5, 2026