Одиссей: Масштабирование визуально-языковых моделей для принятия решений в играх на 100+ ходов с помощью обучения с подкреплением
Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning
May 1, 2026
Авторы: Chengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin
cs.AI
Аннотация
Учитывая стремительно растущие возможности визуально-языковых моделей (VLM), их расширение для интерактивных задач принятия решений, таких как видеоигры, стало перспективным направлением. Однако существующие подходы либо полагаются на крупномасштабное контролируемое тонкое настройка (SFT) на траекториях человека, либо применяют обучение с подкреплением (RL) лишь в относительно коротких горизонтах планирования (обычно около 20–30 ходов). В данной работе мы исследуем обучение VLM на основе RL для принятия решений в условиях длинного горизонта в игре Super Mario Land — визуально обоснованной среде, требующей более 100 взаимодействий с координацией восприятия, логического вывода и действий. Мы начинаем с систематического изучения ключевых алгоритмических компонентов и предлагаем адаптированный вариант PPO с облегченным пошаговым критиком, который существенно улучшает стабильность обучения и эффективность использования данных по сравнению с методами без критика, такими как GRPO и Reinforce++. Мы также показываем, что предобученные VLM обеспечивают сильные априорные предположения о действиях, значительно повышая эффективность выборки во время RL-обучения и снижая потребность в ручном проектировании, таком как инженерия действий, по сравнению с классическим глубоким RL, обучаемым с нуля. Опираясь на эти идеи, мы представляем Odysseus — открытую框架 обучения для VLM-агентов, демонстрирующую существенный прогресс на множественных уровнях игры и достигающую как минимум в 3 раза большего среднего прогресса в игре по сравнению с передовыми моделями. Более того, обученные модели демонстрируют устойчивые улучшения как в условиях внутриигрового обобщения, так и межъигрового переноса, сохраняя при этом общедоменные способности. В целом, наши результаты выявляют ключевые компоненты для обеспечения стабильности и эффективности RL в условиях длинного горизонта и многомодальности, а также предоставляют практические рекомендации по разработке VLM в качестве воплощенных агентов.
English
Given the rapidly growing capabilities of vision-language models (VLMs), extending them to interactive decision-making tasks such as video games has emerged as a promising frontier. However, existing approaches either rely on large-scale supervised fine-tuning (SFT) on human trajectories or apply reinforcement learning (RL) only in relatively short-horizon settings (typically around 20--30 turns). In this work, we study RL-based training of VLMs for long-horizon decision-making in Super Mario Land, a visually grounded environment requiring 100+ turns of interaction with coordinated perception, reasoning, and action. We begin with a systematic investigation of key algorithmic components and propose an adapted variant of PPO with a lightweight turn-level critic, which substantially improves training stability and sample efficiency over critic-free methods such as GRPO and Reinforce++. We further show that pretrained VLMs provide strong action priors, significantly improving sample efficiency during RL training and reducing the need for manual design choices such as action engineering, compared to classical deep RL trained from scratch. Building on these insights, we introduce Odysseus, an open training framework for VLM agents, achieving substantial gains across multiple levels of the game and at least 3 times average game progresses than frontier models. Moreover, the trained models exhibit consistent improvements under both in-game and cross-game generalization settings, while maintaining general-domain capabilities. Overall, our results identify key ingredients for making RL stable and effective in long-horizon, multi-modal settings, and provide practical guidance for developing VLMs as embodied agents.