NitroGen: Открытая базовая модель для универсальных игровых агентов
NitroGen: An Open Foundation Model for Generalist Gaming Agents
January 4, 2026
Авторы: Loïc Magne, Anas Awadalla, Guanzhi Wang, Yinzhen Xu, Joshua Belofsky, Fengyuan Hu, Joohwan Kim, Ludwig Schmidt, Georgia Gkioxari, Jan Kautz, Yisong Yue, Yejin Choi, Yuke Zhu, Linxi "Jim" Fan
cs.AI
Аннотация
Мы представляем NitroGen — фреймворк-модель «зрение-действие» для универсальных игровых агентов, обученную на 40 000 часов игрового видео более чем по 1 000 играм. Модель включает три ключевых компонента: 1) масштабируемый видео-действенный датасет, созданный путём автоматического извлечения действий игрока из общедоступных игровых видеозаписей, 2) бенчмарк-среду для оценки меж-игрового обобщения и 3) унифицированную модель «зрение-действие», обученную методом крупномасштабного клонирования поведения. NitroGen демонстрирует высокую эффективность в разнообразных доменах, включая боевые столкновения в 3D-экшенах, прецизионное управление в 2D-платформерах и исследование процедурно генерируемых миров. Модель успешно переносится на неизвестные игры, показывая до 52% относительного улучшения показателя успешности выполнения задач по сравнению с моделями, обученными с нуля. Мы публикуем датасет, набор инструментов для оценки и веса модели для стимулирования исследований в области универсальных воплощённых агентов.
English
We introduce NitroGen, a vision-action foundation model for generalist gaming agents that is trained on 40,000 hours of gameplay videos across more than 1,000 games. We incorporate three key ingredients: 1) an internet-scale video-action dataset constructed by automatically extracting player actions from publicly available gameplay videos, 2) a multi-game benchmark environment that can measure cross-game generalization, and 3) a unified vision-action model trained with large-scale behavior cloning. NitroGen exhibits strong competence across diverse domains, including combat encounters in 3D action games, high-precision control in 2D platformers, and exploration in procedurally generated worlds. It transfers effectively to unseen games, achieving up to 52% relative improvement in task success rates over models trained from scratch. We release the dataset, evaluation suite, and model weights to advance research on generalist embodied agents.