Schaalgedrag van Gedragskloneren Verbeterd Causaal Redeneren: Een Open Model voor Real-Time Videogame Spelen

Samenvatting

Gedragsklonering beleeft een heropleving in populariteit, aangezien het opschalen van zowel model- als datagroottes een sterke startbasis blijkt te bieden voor veel interessante taken. In dit werk introduceren we een open recept voor het trainen van een foundation-model voor het spelen van videogames, dat ontworpen is voor realtime inferentie op een consumenten-GPU. We publiceren alle data (meer dan 8300 uur aan hoogwaardige menselijke gameplay), trainings- en inferentiecode, en voorgetrainde checkpoints onder een open licentie. We tonen aan dat ons beste model in staat is om diverse 3D-videogames te spelen op een niveau dat competitief is met menselijk spel. We gebruiken dit recept om systematisch de schaalwetten van gedragsklonering te onderzoeken, om te begrijpen hoe de prestaties en causale redenering van het model variëren met de schaal van model en data. We tonen eerst aan in een eenvoudig toy-probleem dat, voor sommige soorten causale redenering, het vergroten van zowel de hoeveelheid trainingsdata als de diepte van het netwerk resulteert in het aanleren van een meer causaal beleid door het model. Vervolgens bestuderen we systematisch hoe causaliteit varieert met het aantal parameters (en diepte) en trainingsstappen in opgeschaalde modellen van tot 1,2 miljard parameters, en we vinden vergelijkbare schaalresultaten als wat we observeren in het toy-probleem.

English

Behavior cloning is enjoying a resurgence in popularity as scaling both model and data sizes proves to provide a strong starting point for many tasks of interest. In this work, we introduce an open recipe for training a video game playing foundation model designed for inference in realtime on a consumer GPU. We release all data (8300+ hours of high quality human gameplay), training and inference code, and pretrained checkpoints under an open license. We show that our best model is capable of playing a variety of 3D video games at a level competitive with human play. We use this recipe to systematically examine the scaling laws of behavior cloning to understand how the model's performance and causal reasoning varies with model and data scale. We first show in a simple toy problem that, for some types of causal reasoning, increasing both the amount of training data and the depth of the network results in the model learning a more causal policy. We then systematically study how causality varies with the number of parameters (and depth) and training steps in scaled models of up to 1.2 billion parameters, and we find similar scaling results to what we observe in the toy problem.

Schaalgedrag van Gedragskloneren Verbeterd Causaal Redeneren: Een Open Model voor Real-Time Videogame Spelen

Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing

Samenvatting

Support