ChatPaper.aiChatPaper

NitroGen:汎用ゲーミングエージェントのためのオープン基盤モデル

NitroGen: An Open Foundation Model for Generalist Gaming Agents

January 4, 2026
著者: Loïc Magne, Anas Awadalla, Guanzhi Wang, Yinzhen Xu, Joshua Belofsky, Fengyuan Hu, Joohwan Kim, Ludwig Schmidt, Georgia Gkioxari, Jan Kautz, Yisong Yue, Yejin Choi, Yuke Zhu, Linxi "Jim" Fan
cs.AI

要旨

我々は、1,000以上のゲームにおける4万時間のゲームプレイ動画で学習した、汎用ゲーミングエージェントのための視覚行動基盤モデル「NitroGen」を紹介する。本モデルには3つの重要な要素を組み込んでいる:1)公開されているゲームプレイ動画からプレイヤーの行動を自動抽出して構築したインターネット規模のビデオ行動データセット、2)ゲーム間の汎化性能を測定できるマルチゲームベンチマーク環境、3)大規模行動クローニングで学習した統一視覚行動モデルである。NitroGenは、3Dアクションゲームの戦闘シーン、2Dプラットフォーマーの高精度制御、手続き生成ワールドでの探索など、多様な領域で高い能力を発揮する。未見のゲームに対しても効果的に転移し、スクラッチから学習したモデルと比較してタスク成功率で最大52%の相対的改善を達成した。汎用具現化エージェントの研究推進のため、データセット、評価スイート、モデル重みを公開する。
English
We introduce NitroGen, a vision-action foundation model for generalist gaming agents that is trained on 40,000 hours of gameplay videos across more than 1,000 games. We incorporate three key ingredients: 1) an internet-scale video-action dataset constructed by automatically extracting player actions from publicly available gameplay videos, 2) a multi-game benchmark environment that can measure cross-game generalization, and 3) a unified vision-action model trained with large-scale behavior cloning. NitroGen exhibits strong competence across diverse domains, including combat encounters in 3D action games, high-precision control in 2D platformers, and exploration in procedurally generated worlds. It transfers effectively to unseen games, achieving up to 52% relative improvement in task success rates over models trained from scratch. We release the dataset, evaluation suite, and model weights to advance research on generalist embodied agents.
PDF221January 8, 2026