ChatPaper.aiChatPaper

### 확장 행동 복제가 인과적 추론을 개선한다: 실시간 비디오 게임 플레이를 위한 오픈 모델 (또는 보다 학술적인 문체를 강조하면) ### 확장 행동 복제를 통한 인과적 추론 능력 향상: 실시간 비디오오 게임 실행을 위한 오픈 모델

Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing

January 8, 2026
저자: Yuguang Yue, Irakli Salia, Samuel Hunt, Chris Green, Wenzhe Shi, Jonathan J Hunt
cs.AI

초록

행동 복제는 모델과 데이터 규모의 확장이 다양한 관심 과제에 강력한 출발점을 제공한다는 사실이 입증되면서 인기를 되찾고 있습니다. 본 연구에서는 소비자용 GPU에서 실시간 추론이 가능한 비디오 게임 플레이 파운데이션 모델의 공개 학습 방법론을 소개합니다. 우리는 모든 데이터(8,300시간 이상의 고품질 인간 게임 플레이), 학습 및 추론 코드, 사전 학습된 체크포인트를 오픈 라이선스로 공개합니다. 최적화된 모델이 다양한 3D 비디오 게임을 인간 수준에 버금가는 수준으로 플레이할 수 있음을 입증합니다. 또한 이 방법론을 활용하여 모델과 데이터 규모에 따른 성능 및 인과 관계 추론 능력의 변화를 체계적으로 분석합니다. 먼저 단순 토이 문제에서 특정 유형의 인과 관계 추론의 경우, 학습 데이터량과 네트워크 깊이를 동시에 증가시키면 모델이 더 인과적인 정책을 학습함을 확인합니다. 이후 12억 개 매개변수 규모의 모델까지 확장하여 매개변수 수(및 깊이)와 학습 단계에 따른 인과성 변화를 체계적으로 연구한 결과, 토이 문제에서 관찰된 것과 유사한 확장 법칙이 나타남을 발견했습니다.
English
Behavior cloning is enjoying a resurgence in popularity as scaling both model and data sizes proves to provide a strong starting point for many tasks of interest. In this work, we introduce an open recipe for training a video game playing foundation model designed for inference in realtime on a consumer GPU. We release all data (8300+ hours of high quality human gameplay), training and inference code, and pretrained checkpoints under an open license. We show that our best model is capable of playing a variety of 3D video games at a level competitive with human play. We use this recipe to systematically examine the scaling laws of behavior cloning to understand how the model's performance and causal reasoning varies with model and data scale. We first show in a simple toy problem that, for some types of causal reasoning, increasing both the amount of training data and the depth of the network results in the model learning a more causal policy. We then systematically study how causality varies with the number of parameters (and depth) and training steps in scaled models of up to 1.2 billion parameters, and we find similar scaling results to what we observe in the toy problem.
PDF11January 10, 2026