ChatPaper.aiChatPaper

Amélioration du raisonnement causal par mise à l'échelle du clonage comportemental : un modèle ouvert pour le jeu vidéo en temps réel

Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing

January 8, 2026
papers.authors: Yuguang Yue, Irakli Salia, Samuel Hunt, Chris Green, Wenzhe Shi, Jonathan J Hunt
cs.AI

papers.abstract

Le clonage comportemental connaît une résurgence de popularité, car l'augmentation simultanée de la taille des modèles et des données s'avère offrir un point de départ solide pour de nombreuses tâches d'intérêt. Dans ce travail, nous présentons une recette ouverte pour entraîner un modèle fondation capable de jouer à des jeux vidéo, conçu pour l'inférence en temps réel sur un GPU grand public. Nous publions toutes les données (plus de 8300 heures de gameplay humain de haute qualité), le code d'entraînement et d'inférence, ainsi que les points de contrôle pré-entraînés sous une licence libre. Nous démontrons que notre meilleur modèle est capable de jouer à une variété de jeux vidéo en 3D à un niveau comparable à celui d'un joueur humain. Nous utilisons cette recette pour examiner systématiquement les lois d'échelle du clonage comportemental afin de comprendre comment la performance et le raisonnement causal du modèle varient avec l'échelle du modèle et des données. Nous montrons d'abord, sur un problème jouet simple, que pour certains types de raisonnement causal, l'augmentation à la fois de la quantité de données d'entraînement et de la profondeur du réseau conduit le modèle à apprendre une politique plus causale. Nous étudions ensuite systématiquement comment la causalité varie avec le nombre de paramètres (et la profondeur) et les étapes d'entraînement dans des modèles mis à l'échelle allant jusqu'à 1,2 milliard de paramètres, et nous observons des résultats d'échelle similaires à ceux constatés dans le problème jouet.
English
Behavior cloning is enjoying a resurgence in popularity as scaling both model and data sizes proves to provide a strong starting point for many tasks of interest. In this work, we introduce an open recipe for training a video game playing foundation model designed for inference in realtime on a consumer GPU. We release all data (8300+ hours of high quality human gameplay), training and inference code, and pretrained checkpoints under an open license. We show that our best model is capable of playing a variety of 3D video games at a level competitive with human play. We use this recipe to systematically examine the scaling laws of behavior cloning to understand how the model's performance and causal reasoning varies with model and data scale. We first show in a simple toy problem that, for some types of causal reasoning, increasing both the amount of training data and the depth of the network results in the model learning a more causal policy. We then systematically study how causality varies with the number of parameters (and depth) and training steps in scaled models of up to 1.2 billion parameters, and we find similar scaling results to what we observe in the toy problem.
PDF11January 10, 2026