ChatPaper.aiChatPaper

Масштабирование поведенческого клонирования улучшает каузальные рассуждения: открытая модель для игры в видеоигры в реальном времени

Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing

January 8, 2026
Авторы: Yuguang Yue, Irakli Salia, Samuel Hunt, Chris Green, Wenzhe Shi, Jonathan J Hunt
cs.AI

Аннотация

Клонирование поведения переживает возрождение популярности, поскольку масштабирование как моделей, так и объемов данных доказывает свою эффективность в качестве мощной отправной точки для решения множества интересующих задач. В данной работе мы представляем открытый рецепт обучения базовой модели для игры в видеоигры, предназначенной для выполнения выводов в реальном времени на потребительском графическом процессоре. Мы публикуем все данные (свыше 8300 часов качественного геймплея человека), код для обучения и вывода, а также предобученные контрольные точки под открытой лицензией. Мы показываем, что наша лучшая модель способна играть в различные 3D-видеоигры на уровне, сопоставимом с человеческим. Мы используем этот рецепт для систематического изучения законов масштабирования клонирования поведения, чтобы понять, как производительность и каузальные рассуждения модели меняются в зависимости от масштаба модели и данных. Сначала мы демонстрируем на простой игрушечной проблеме, что для некоторых типов каузальных рассуждений увеличение как объема обучающих данных, так и глубины сети приводит к тому, что модель изучает более причинно-обоснованную политику. Затем мы систематически исследуем, как причинность варьируется в зависимости от количества параметров (и глубины) и шагов обучения в масштабированных моделях размером до 1,2 миллиарда параметров, и мы обнаруживаем аналогичные результаты масштабирования тем, что наблюдали в игрушечной проблеме.
English
Behavior cloning is enjoying a resurgence in popularity as scaling both model and data sizes proves to provide a strong starting point for many tasks of interest. In this work, we introduce an open recipe for training a video game playing foundation model designed for inference in realtime on a consumer GPU. We release all data (8300+ hours of high quality human gameplay), training and inference code, and pretrained checkpoints under an open license. We show that our best model is capable of playing a variety of 3D video games at a level competitive with human play. We use this recipe to systematically examine the scaling laws of behavior cloning to understand how the model's performance and causal reasoning varies with model and data scale. We first show in a simple toy problem that, for some types of causal reasoning, increasing both the amount of training data and the depth of the network results in the model learning a more causal policy. We then systematically study how causality varies with the number of parameters (and depth) and training steps in scaled models of up to 1.2 billion parameters, and we find similar scaling results to what we observe in the toy problem.
PDF11January 10, 2026