ChatPaper.aiChatPaper

NitroGen: Ein offenes Basismodell für generalistische Spieleagenten

NitroGen: An Open Foundation Model for Generalist Gaming Agents

January 4, 2026
papers.authors: Loïc Magne, Anas Awadalla, Guanzhi Wang, Yinzhen Xu, Joshua Belofsky, Fengyuan Hu, Joohwan Kim, Ludwig Schmidt, Georgia Gkioxari, Jan Kautz, Yisong Yue, Yejin Choi, Yuke Zhu, Linxi "Jim" Fan
cs.AI

papers.abstract

Wir stellen NitroGen vor, ein Vision-Action-Foundation-Modell für generalistische Spiele-Agenten, das mit 40.000 Stunden Gameplay-Videos aus über 1.000 Spielen trainiert wurde. Drei Schlüsselkomponenten bilden die Grundlage: 1) einen internetgroßen Video-Action-Datensatz, der durch automatische Extraktion von Spieleraktionen aus öffentlich verfügbaren Gameplay-Videos erstellt wurde, 2) eine Multi-Game-Testumgebung zur Messung spielübergreifender Generalisierung und 3) ein einheitliches Vision-Action-Modell, das mit Large-Scale-Behavior-Cloning trainiert wurde. NitroGen zeigt starke Leistungen in diversen Domänen, darunter Kampfszenarien in 3D-Actionspielen, hochpräzise Steuerung in 2D-Plattformern und Exploration in prozedural generierten Welten. Das Modell überträgt effektiv auf unbekannte Spiele und erzielt bis zu 52 % relative Verbesserung der Aufgaben-Erfolgsrate im Vergleich zu von Grund auf trainierten Modellen. Wir veröffentlichen den Datensatz, die Testsuite und die Modellgewichte, um die Forschung zu generalistischen embodied Agents voranzutreiben.
English
We introduce NitroGen, a vision-action foundation model for generalist gaming agents that is trained on 40,000 hours of gameplay videos across more than 1,000 games. We incorporate three key ingredients: 1) an internet-scale video-action dataset constructed by automatically extracting player actions from publicly available gameplay videos, 2) a multi-game benchmark environment that can measure cross-game generalization, and 3) a unified vision-action model trained with large-scale behavior cloning. NitroGen exhibits strong competence across diverse domains, including combat encounters in 3D action games, high-precision control in 2D platformers, and exploration in procedurally generated worlds. It transfers effectively to unseen games, achieving up to 52% relative improvement in task success rates over models trained from scratch. We release the dataset, evaluation suite, and model weights to advance research on generalist embodied agents.
PDF221January 8, 2026