Odysseus : Passage des VLM à une prise de décision sur 100+ tours dans les jeux via l'apprentissage par renforcement
Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning
May 1, 2026
Auteurs: Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin
cs.AI
Résumé
Compte tenu des capacités croissantes des modèles vision-langage (VLM), leur extension à des tâches de prise de décision interactive comme les jeux vidéo constitue une frontière prometteuse. Cependant, les approches existantes reposent soit sur un fine-tuning supervisé (SFT) à grande échelle sur des trajectoires humaines, soit n'appliquent l'apprentissage par renforcement (RL) que dans des contextes à horizon relativement court (typiquement autour de 20-30 tours). Dans ce travail, nous étudions l'entraînement par RL de VLM pour la prise de décision à long horizon dans Super Mario Land, un environnement visuel nécessitant plus de 100 tours d'interaction avec une perception, un raisonnement et une action coordonnés. Nous commençons par une investigation systématique des composants algorithmiques clés et proposons une variante adaptée de PPO avec un critique léger au niveau du tour, ce qui améliore considérablement la stabilité de l'entraînement et l'efficacité en échantillons par rapport aux méthodes sans critique comme GRPO et Reinforce++. Nous montrons en outre que les VLM pré-entraînés fournissent de fortes priors sur les actions, améliorant significativement l'efficacité en échantillons durant l'entraînement par RL et réduisant le besoin de choix de conception manuels tels que l'ingénierie des actions, comparé au RL profond classique entraîné à partir de zéro. En nous appuyant sur ces insights, nous introduisons Odysseus, un cadre d'entraînement ouvert pour agents VLM, obtenant des gains substantiels sur plusieurs niveaux du jeu et au moins 3 fois plus de progression moyenne dans le jeu que les modèles de pointe. De plus, les modèles entraînés présentent des améliorations constantes dans des contextes de généralisation intra-jeu et inter-jeux, tout en conservant leurs capacités dans le domaine général. Globalement, nos résultats identifient les ingrédients clés pour rendre le RL stable et efficace dans des cadres multimodaux à long horizon, et fournissent des conseils pratiques pour développer les VLM en tant qu'agents incarnés.
English
Given the rapidly growing capabilities of vision-language models (VLMs), extending them to interactive decision-making tasks such as video games has emerged as a promising frontier. However, existing approaches either rely on large-scale supervised fine-tuning (SFT) on human trajectories or apply reinforcement learning (RL) only in relatively short-horizon settings (typically around 20--30 turns). In this work, we study RL-based training of VLMs for long-horizon decision-making in Super Mario Land, a visually grounded environment requiring 100+ turns of interaction with coordinated perception, reasoning, and action. We begin with a systematic investigation of key algorithmic components and propose an adapted variant of PPO with a lightweight turn-level critic, which substantially improves training stability and sample efficiency over critic-free methods such as GRPO and Reinforce++. We further show that pretrained VLMs provide strong action priors, significantly improving sample efficiency during RL training and reducing the need for manual design choices such as action engineering, compared to classical deep RL trained from scratch. Building on these insights, we introduce Odysseus, an open training framework for VLM agents, achieving substantial gains across multiple levels of the game and at least 3 times average game progresses than frontier models. Moreover, the trained models exhibit consistent improvements under both in-game and cross-game generalization settings, while maintaining general-domain capabilities. Overall, our results identify key ingredients for making RL stable and effective in long-horizon, multi-modal settings, and provide practical guidance for developing VLMs as embodied agents.