Il comportamento di clonazione in scala migliora il ragionamento causale: un modello aperto per il gioco in tempo reale nei videogiochi

Abstract

La clonazione comportamentale sta vivendo una rinascita di popolarità, poiché la scalabilità sia delle dimensioni del modello che dei dati si dimostra in grado di fornire un solido punto di partenza per molti compiti di interesse. In questo lavoro, introduciamo una ricetta aperta per addestrare un modello fondazionale per il gioco di videogiochi, progettato per l'inferenza in tempo reale su una GPU consumer. Rilasciamo tutti i dati (oltre 8300 ore di gameplay umano di alta qualità), il codice di addestramento e inferenza, e i checkpoint pre-addestrati sotto una licenza aperta. Dimostriamo che il nostro modello migliore è in grado di giocare a una varietà di videogiochi 3D a un livello competitivo con le prestazioni umane. Utilizziamo questa ricetta per esaminare sistematicamente le leggi di scalabilità della clonazione comportamentale, al fine di comprendere come le prestazioni e il ragionamento causale del modello varino con la scala del modello e dei dati. Inizialmente mostriamo, in un semplice problema giocattolo, che per alcuni tipi di ragionamento causale, l'aumento sia della quantità di dati di addestramento che della profondità della rete porta il modello ad apprendere una policy più causale. Successivamente, studiamo sistematicamente come la causalità vari con il numero di parametri (e la profondità) e i passi di addestramento in modelli scalati fino a 1,2 miliardi di parametri, e riscontriamo risultati di scalabilità simili a quelli osservati nel problema giocattolo.

English

Behavior cloning is enjoying a resurgence in popularity as scaling both model and data sizes proves to provide a strong starting point for many tasks of interest. In this work, we introduce an open recipe for training a video game playing foundation model designed for inference in realtime on a consumer GPU. We release all data (8300+ hours of high quality human gameplay), training and inference code, and pretrained checkpoints under an open license. We show that our best model is capable of playing a variety of 3D video games at a level competitive with human play. We use this recipe to systematically examine the scaling laws of behavior cloning to understand how the model's performance and causal reasoning varies with model and data scale. We first show in a simple toy problem that, for some types of causal reasoning, increasing both the amount of training data and the depth of the network results in the model learning a more causal policy. We then systematically study how causality varies with the number of parameters (and depth) and training steps in scaled models of up to 1.2 billion parameters, and we find similar scaling results to what we observe in the toy problem.

Il comportamento di clonazione in scala migliora il ragionamento causale: un modello aperto per il gioco in tempo reale nei videogiochi

Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing

Abstract

Support