NitroGen: 범용 게임 에이전트를 위한 오픈 파운데이션 모델
NitroGen: An Open Foundation Model for Generalist Gaming Agents
January 4, 2026
저자: Loïc Magne, Anas Awadalla, Guanzhi Wang, Yinzhen Xu, Joshua Belofsky, Fengyuan Hu, Joohwan Kim, Ludwig Schmidt, Georgia Gkioxari, Jan Kautz, Yisong Yue, Yejin Choi, Yuke Zhu, Linxi "Jim" Fan
cs.AI
초록
우리는 1,000여 종 이상의 게임에서 총 4만 시간 분량의 게임플레이 영상으로 학습된 범용 게임 에이전트를 위한 비전-액션 기초 모델인 NitroGen을 소개한다. 본 모델은 세 가지 핵심 요소를 통합하였다: 1) 공개된 게임플레이 영상에서 플레이어 행동을 자동으로 추출하여 구축한 인터넷 규모의 비디오-액션 데이터셋, 2) 다양한 게임 간 일반화 성능을 측정할 수 있는 멀티게임 벤치마크 환경, 3) 대규모 행동 복제로 학습된 통합 비전-액션 모델. NitroGen은 3D 액션 게임의 전투 상황, 2D 플랫포머의 고정밀 제어, 절차적 생성 세계의 탐험 등 다양한 영역에서 강력한 능력을 보여준다. 또한 본 모델은 새로운 게임에 효과적으로 전이되어, 처음부터 학습된 모델 대비 작업 성공률에서 최대 52%의 상대적 향상을 달성한다. 범용 구현 에이전트 연구의 발전을 위해 데이터셋, 평가 도구 및 모델 가중치를 공개한다.
English
We introduce NitroGen, a vision-action foundation model for generalist gaming agents that is trained on 40,000 hours of gameplay videos across more than 1,000 games. We incorporate three key ingredients: 1) an internet-scale video-action dataset constructed by automatically extracting player actions from publicly available gameplay videos, 2) a multi-game benchmark environment that can measure cross-game generalization, and 3) a unified vision-action model trained with large-scale behavior cloning. NitroGen exhibits strong competence across diverse domains, including combat encounters in 3D action games, high-precision control in 2D platformers, and exploration in procedurally generated worlds. It transfers effectively to unseen games, achieving up to 52% relative improvement in task success rates over models trained from scratch. We release the dataset, evaluation suite, and model weights to advance research on generalist embodied agents.