スケーリング行動クローニングによる因果推論の改善:リアルタイムビデオゲームプレイのためのオープンモデル
Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing
January 8, 2026
著者: Yuguang Yue, Irakli Salia, Samuel Hunt, Chris Green, Wenzhe Shi, Jonathan J Hunt
cs.AI
要旨
ビヘイビアクローニングは、モデルサイズとデータサイズのスケーリングが多くの関心対象タスクにおいて強力な出発点を提供することが実証され、人気の再興を享受している。本研究では、コンシューマー向けGPU上でリアルタイム推論を目的としたビデオゲームプレイ基盤モデルを訓練するためのオープンレシピを紹介する。すべてのデータ(8,300時間以上の高品質な人間のゲームプレイ)、訓練・推論コード、事前学習済みチェックポイントをオープンライセンスの下で公開する。我々の最良モデルは、人間のプレイに匹敵するレベルで多様な3Dビデオゲームをプレイ可能であることを示す。このレシピを用いて、ビヘイビアクローニングのスケーリング則を体系的に検証し、モデルとデータ規模の変化に伴うモデルの性能と因果推論の変容を解明する。まず単純なトイ問題において、特定の種類の因果推論については、訓練データ量とネットワークの深さを増加させることで、モデルがより因果的なポリシーを学習することを示す。次に、12億パラメータに達するスケールドモデルにおいて、因果性がパラメータ数(および深さ)と訓練ステップ数にどのように変化するかを体系的に研究し、トイ問題で観察されたものと同様のスケーリング結果を得る。
English
Behavior cloning is enjoying a resurgence in popularity as scaling both model and data sizes proves to provide a strong starting point for many tasks of interest. In this work, we introduce an open recipe for training a video game playing foundation model designed for inference in realtime on a consumer GPU. We release all data (8300+ hours of high quality human gameplay), training and inference code, and pretrained checkpoints under an open license. We show that our best model is capable of playing a variety of 3D video games at a level competitive with human play. We use this recipe to systematically examine the scaling laws of behavior cloning to understand how the model's performance and causal reasoning varies with model and data scale. We first show in a simple toy problem that, for some types of causal reasoning, increasing both the amount of training data and the depth of the network results in the model learning a more causal policy. We then systematically study how causality varies with the number of parameters (and depth) and training steps in scaled models of up to 1.2 billion parameters, and we find similar scaling results to what we observe in the toy problem.