NitroGen: Een Open Fundamenteel Model voor Algemene Gaming Agents
NitroGen: An Open Foundation Model for Generalist Gaming Agents
January 4, 2026
Auteurs: Loïc Magne, Anas Awadalla, Guanzhi Wang, Yinzhen Xu, Joshua Belofsky, Fengyuan Hu, Joohwan Kim, Ludwig Schmidt, Georgia Gkioxari, Jan Kautz, Yisong Yue, Yejin Choi, Yuke Zhu, Linxi "Jim" Fan
cs.AI
Samenvatting
Wij introduceren NitroGen, een vision-action foundation model voor generalistische game-agents, getraind op 40.000 uur aan gameplayvideo's van meer dan 1.000 games. Het model bevat drie kernelementen: 1) een video-actie-dataset op internetschaal, samengesteld door automatisch speleracties uit openbaar beschikbare gameplayvideo's te extraheren, 2) een multi-game benchmarkomgeving die cross-game generalisatie kan meten, en 3) een verenigd vision-action model getraind met grootschalige behavior cloning. NitroGen toont sterke bekwaamheid in uiteenlopende domeinen, waaronder gevechtssituaties in 3D-actiegames, precisiebesturing in 2D-platformers en exploratie in procedureel gegenereerde werelden. Het model transferreert effectief naar onbekende games en behaalt tot 52% relatieve verbetering in taaksuccespercentages ten opzichte van modellen die vanaf nul worden getraind. Wij publiceren de dataset, de evaluatiesuite en de modelgewichten om onderzoek naar generalistische belichaamde agents te bevorderen.
English
We introduce NitroGen, a vision-action foundation model for generalist gaming agents that is trained on 40,000 hours of gameplay videos across more than 1,000 games. We incorporate three key ingredients: 1) an internet-scale video-action dataset constructed by automatically extracting player actions from publicly available gameplay videos, 2) a multi-game benchmark environment that can measure cross-game generalization, and 3) a unified vision-action model trained with large-scale behavior cloning. NitroGen exhibits strong competence across diverse domains, including combat encounters in 3D action games, high-precision control in 2D platformers, and exploration in procedurally generated worlds. It transfers effectively to unseen games, achieving up to 52% relative improvement in task success rates over models trained from scratch. We release the dataset, evaluation suite, and model weights to advance research on generalist embodied agents.