NitroGen: Un modelo base abierto para agentes de juego generalistas
NitroGen: An Open Foundation Model for Generalist Gaming Agents
January 4, 2026
Autores: Loïc Magne, Anas Awadalla, Guanzhi Wang, Yinzhen Xu, Joshua Belofsky, Fengyuan Hu, Joohwan Kim, Ludwig Schmidt, Georgia Gkioxari, Jan Kautz, Yisong Yue, Yejin Choi, Yuke Zhu, Linxi "Jim" Fan
cs.AI
Resumen
Presentamos NitroGen, un modelo base de visión-acción para agentes de juego generalistas, entrenado con 40,000 horas de vídeos de juego de más de 1.000 títulos. Incorporamos tres elementos clave: 1) un conjunto de datos de vídeo-acción a escala de internet, construido mediante la extracción automática de las acciones del jugador de vídeos de juego disponibles públicamente, 2) un entorno de evaluación comparativa multijuego que permite medir la generalización entre juegos, y 3) un modelo unificado de visión-acción entrenado mediante clonación de comportamiento a gran escala. NitroGen demuestra una gran competencia en diversos dominios, incluyendo encuentros de combate en juegos de acción 3D, control de alta precisión en plataformas 2D y exploración en mundos generados proceduralmente. El modelo se transfiere eficazmente a juegos no vistos, logrando una mejora relativa de hasta el 52% en las tasas de éxito de las tareas en comparación con modelos entrenados desde cero. Publicamos el conjunto de datos, el entorno de evaluación y los pesos del modelo para impulsar la investigación en agentes corporizados generalistas.
English
We introduce NitroGen, a vision-action foundation model for generalist gaming agents that is trained on 40,000 hours of gameplay videos across more than 1,000 games. We incorporate three key ingredients: 1) an internet-scale video-action dataset constructed by automatically extracting player actions from publicly available gameplay videos, 2) a multi-game benchmark environment that can measure cross-game generalization, and 3) a unified vision-action model trained with large-scale behavior cloning. NitroGen exhibits strong competence across diverse domains, including combat encounters in 3D action games, high-precision control in 2D platformers, and exploration in procedurally generated worlds. It transfers effectively to unseen games, achieving up to 52% relative improvement in task success rates over models trained from scratch. We release the dataset, evaluation suite, and model weights to advance research on generalist embodied agents.