Comportamento de Clonagem em Escala Melhora o Raciocínio Causal: Um Modelo Aberto para Jogos em Tempo Real

Resumo

A clonagem de comportamento está a viver um ressurgimento de popularidade, uma vez que a escalabilidade tanto dos modelos como do volume de dados se prova capaz de fornecer uma base sólida para muitas tarefas de interesse. Neste trabalho, apresentamos uma receita aberta para treinar um modelo de base para jogar videojogos, concebido para inferência em tempo real numa GPU de consumo. Disponibilizamos todos os dados (mais de 8300 horas de gameplay humano de alta qualidade), o código de treino e inferência, e os *checkpoints* pré-treinados sob uma licença aberta. Demonstramos que o nosso melhor modelo é capaz de jogar uma variedade de videojogos 3D a um nível competitivo com o desempenho humano. Utilizamos esta receita para examinar sistematicamente as leis de escalabilidade da clonagem de comportamento, de modo a compreender como o desempenho e o raciocínio causal do modelo variam com a escala do modelo e dos dados. Primeiro, mostramos num problema-teste simples que, para alguns tipos de raciocínio causal, o aumento tanto da quantidade de dados de treino como da profundidade da rede resulta na aprendizagem de uma política mais causal por parte do modelo. De seguida, estudamos sistematicamente como a causalidade varia com o número de parâmetros (e a profundidade) e as etapas de treino em modelos escalados até 1,2 mil milhões de parâmetros, e encontramos resultados de escalabilidade semelhantes aos observados no problema-teste.

English

Behavior cloning is enjoying a resurgence in popularity as scaling both model and data sizes proves to provide a strong starting point for many tasks of interest. In this work, we introduce an open recipe for training a video game playing foundation model designed for inference in realtime on a consumer GPU. We release all data (8300+ hours of high quality human gameplay), training and inference code, and pretrained checkpoints under an open license. We show that our best model is capable of playing a variety of 3D video games at a level competitive with human play. We use this recipe to systematically examine the scaling laws of behavior cloning to understand how the model's performance and causal reasoning varies with model and data scale. We first show in a simple toy problem that, for some types of causal reasoning, increasing both the amount of training data and the depth of the network results in the model learning a more causal policy. We then systematically study how causality varies with the number of parameters (and depth) and training steps in scaled models of up to 1.2 billion parameters, and we find similar scaling results to what we observe in the toy problem.

Comportamento de Clonagem em Escala Melhora o Raciocínio Causal: Um Modelo Aberto para Jogos em Tempo Real

Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing

Resumo

Support