Odysseus: Het Opschalen van VLMs naar Besluitvorming over 100+ Beurten in Spellen via Reinforcement Learning

Samenvatting

Gezien de snel toenemende capaciteiten van visueel-taalkundige modellen (VLM's), is het uitbreiden ervan naar interactieve besluitvormingstaken zoals videogames een veelbelovende nieuwe richting geworden. Bestaande benaderingen vertrouwen echter ofwel op grootschalige supervised fine-tuning (SFT) op menselijke trajecten, ofwel passen ze reinforcement learning (RL) alleen toe in relatief kortdurende settings (typisch rond de 20-30 beurten). In dit werk bestuderen we RL-gebaseerde training van VLM's voor langetermijnbesluitvorming in Super Mario Land, een visueel onderbouwde omgeving die meer dan 100 interactiebeurten vereist met gecoördineerde perceptie, redenering en actie. We beginnen met een systematisch onderzoek naar belangrijke algoritmische componenten en stellen een aangepaste variant van PPO voor met een lichte criticus op beurtniveau, wat de trainingsstabiliteit en sample-efficiëntie aanzienlijk verbetert ten opzichte van criticus-vrije methoden zoals GRPO en Reinforce++. Verder tonen we aan dat vooraf getrainde VLM's sterke actie-priors bieden, wat de sample-efficiëntie tijdens RL-training significant verbetert en de behoefte aan handmatige ontwerpkeuzes, zoals actie-engineering, vermindert in vergelijking met klassieke deep RL die vanaf nul wordt getraind. Voortbouwend op deze inzichten introduceren we Odysseus, een open trainingsframework voor VLM-agenten, dat substantiële winst behaalt op meerdere niveaus van het spel en minstens 3 keer de gemiddelde spelvoortgang bereikt vergeleken met state-of-the-art modellen. Bovendien vertonen de getrainde modellen consistente verbeteringen onder zowel in-game als cross-game generalisatie-omstandigheden, terwijl ze algemene-domeincapaciteiten behouden. Al met al identificeren onze resultaten de belangrijkste ingrediënten om RL stabiel en effectief te maken in langdurige, multimodale settings, en bieden ze praktische richtlijnen voor de ontwikkeling van VLM's als belichaamde agenten.

English

Given the rapidly growing capabilities of vision-language models (VLMs), extending them to interactive decision-making tasks such as video games has emerged as a promising frontier. However, existing approaches either rely on large-scale supervised fine-tuning (SFT) on human trajectories or apply reinforcement learning (RL) only in relatively short-horizon settings (typically around 20--30 turns). In this work, we study RL-based training of VLMs for long-horizon decision-making in Super Mario Land, a visually grounded environment requiring 100+ turns of interaction with coordinated perception, reasoning, and action. We begin with a systematic investigation of key algorithmic components and propose an adapted variant of PPO with a lightweight turn-level critic, which substantially improves training stability and sample efficiency over critic-free methods such as GRPO and Reinforce++. We further show that pretrained VLMs provide strong action priors, significantly improving sample efficiency during RL training and reducing the need for manual design choices such as action engineering, compared to classical deep RL trained from scratch. Building on these insights, we introduce Odysseus, an open training framework for VLM agents, achieving substantial gains across multiple levels of the game and at least 3 times average game progresses than frontier models. Moreover, the trained models exhibit consistent improvements under both in-game and cross-game generalization settings, while maintaining general-domain capabilities. Overall, our results identify key ingredients for making RL stable and effective in long-horizon, multi-modal settings, and provide practical guidance for developing VLMs as embodied agents.

Odysseus: Het Opschalen van VLMs naar Besluitvorming over 100+ Beurten in Spellen via Reinforcement Learning

Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning

Samenvatting

Support