La locomozione umanoide come predizione del token successivo

Abstract

Trattiamo il controllo di umanoidi nel mondo reale come un problema di predizione del token successivo, simile alla previsione della parola successiva nel linguaggio. Il nostro modello è un trasformatore causale addestrato tramite previsione autoregressiva di traiettorie sensorimotorie. Per tenere conto della natura multimodale dei dati, eseguiamo la previsione in modo allineato alla modalità, e per ogni token di input prevediamo il token successivo della stessa modalità. Questa formulazione generale ci consente di sfruttare dati con modalità mancanti, come traiettorie video senza azioni. Addestriamo il nostro modello su una raccolta di traiettorie simulate provenienti da precedenti politiche di rete neurale, controller basati su modelli, dati di motion capture e video di YouTube di esseri umani. Dimostriamo che il nostro modello consente a un umanoide a grandezza naturale di camminare a San Francisco in modalità zero-shot. Il nostro modello può trasferirsi al mondo reale anche quando addestrato su soli 27 ore di dati di camminata, e può generalizzare a comandi non visti durante l'addestramento come camminare all'indietro. Questi risultati suggeriscono una strada promettente verso l'apprendimento di compiti di controllo complessi nel mondo reale attraverso la modellazione generativa di traiettorie sensorimotorie.

English

We cast real-world humanoid control as a next token prediction problem, akin to predicting the next word in language. Our model is a causal transformer trained via autoregressive prediction of sensorimotor trajectories. To account for the multi-modal nature of the data, we perform prediction in a modality-aligned way, and for each input token predict the next token from the same modality. This general formulation enables us to leverage data with missing modalities, like video trajectories without actions. We train our model on a collection of simulated trajectories coming from prior neural network policies, model-based controllers, motion capture data, and YouTube videos of humans. We show that our model enables a full-sized humanoid to walk in San Francisco zero-shot. Our model can transfer to the real world even when trained on only 27 hours of walking data, and can generalize to commands not seen during training like walking backward. These findings suggest a promising path toward learning challenging real-world control tasks by generative modeling of sensorimotor trajectories.

La locomozione umanoide come predizione del token successivo

Humanoid Locomotion as Next Token Prediction

Abstract

Support