La Escalabilidad de la Clonación de Comportamiento Mejora el Razonamiento Causal: Un Modelo Abierto para la Ejecución de Videojuegos en Tiempo Real
Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing
January 8, 2026
Autores: Yuguang Yue, Irakli Salia, Samuel Hunt, Chris Green, Wenzhe Shi, Jonathan J Hunt
cs.AI
Resumen
La clonación de comportamiento está experimentando un resurgimiento en popularidad, ya que escalar tanto el tamaño de los modelos como el de los datos demuestra ser un punto de partida sólido para muchas tareas de interés. En este trabajo, presentamos una receta abierta para entrenar un modelo fundacional que juega a videojuegos, diseñado para realizar inferencias en tiempo real en una GPU de consumo. Publicamos todos los datos (más de 8300 horas de juego humano de alta calidad), el código de entrenamiento e inferencia, y los puntos de control preentrenados bajo una licencia abierta. Demostramos que nuestro mejor modelo es capaz de jugar a una variedad de videojuegos en 3D a un nivel competitivo con el juego humano. Utilizamos esta receta para examinar sistemáticamente las leyes de escalado de la clonación de comportamiento, con el fin de entender cómo el rendimiento y el razonamiento causal del modelo varían con la escala del modelo y de los datos. Primero demostramos en un problema juguete simple que, para algunos tipos de razonamiento causal, aumentar tanto la cantidad de datos de entrenamiento como la profundidad de la red resulta en que el modelo aprenda una política más causal. Luego estudiamos sistemáticamente cómo varía la causalidad con el número de parámetros (y la profundidad) y los pasos de entrenamiento en modelos escalados de hasta 1.2 mil millones de parámetros, y encontramos resultados de escalado similares a los que observamos en el problema juguete.
English
Behavior cloning is enjoying a resurgence in popularity as scaling both model and data sizes proves to provide a strong starting point for many tasks of interest. In this work, we introduce an open recipe for training a video game playing foundation model designed for inference in realtime on a consumer GPU. We release all data (8300+ hours of high quality human gameplay), training and inference code, and pretrained checkpoints under an open license. We show that our best model is capable of playing a variety of 3D video games at a level competitive with human play. We use this recipe to systematically examine the scaling laws of behavior cloning to understand how the model's performance and causal reasoning varies with model and data scale. We first show in a simple toy problem that, for some types of causal reasoning, increasing both the amount of training data and the depth of the network results in the model learning a more causal policy. We then systematically study how causality varies with the number of parameters (and depth) and training steps in scaled models of up to 1.2 billion parameters, and we find similar scaling results to what we observe in the toy problem.