La locomozione umanoide come predizione del token successivo
Humanoid Locomotion as Next Token Prediction
February 29, 2024
Autori: Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
cs.AI
Abstract
Trattiamo il controllo di umanoidi nel mondo reale come un problema di predizione del token successivo, simile alla previsione della parola successiva nel linguaggio. Il nostro modello è un trasformatore causale addestrato tramite previsione autoregressiva di traiettorie sensorimotorie. Per tenere conto della natura multimodale dei dati, eseguiamo la previsione in modo allineato alla modalità, e per ogni token di input prevediamo il token successivo della stessa modalità. Questa formulazione generale ci consente di sfruttare dati con modalità mancanti, come traiettorie video senza azioni. Addestriamo il nostro modello su una raccolta di traiettorie simulate provenienti da precedenti politiche di rete neurale, controller basati su modelli, dati di motion capture e video di YouTube di esseri umani. Dimostriamo che il nostro modello consente a un umanoide a grandezza naturale di camminare a San Francisco in modalità zero-shot. Il nostro modello può trasferirsi al mondo reale anche quando addestrato su soli 27 ore di dati di camminata, e può generalizzare a comandi non visti durante l'addestramento come camminare all'indietro. Questi risultati suggeriscono una strada promettente verso l'apprendimento di compiti di controllo complessi nel mondo reale attraverso la modellazione generativa di traiettorie sensorimotorie.
English
We cast real-world humanoid control as a next token prediction problem, akin
to predicting the next word in language. Our model is a causal transformer
trained via autoregressive prediction of sensorimotor trajectories. To account
for the multi-modal nature of the data, we perform prediction in a
modality-aligned way, and for each input token predict the next token from the
same modality. This general formulation enables us to leverage data with
missing modalities, like video trajectories without actions. We train our model
on a collection of simulated trajectories coming from prior neural network
policies, model-based controllers, motion capture data, and YouTube videos of
humans. We show that our model enables a full-sized humanoid to walk in San
Francisco zero-shot. Our model can transfer to the real world even when trained
on only 27 hours of walking data, and can generalize to commands not seen
during training like walking backward. These findings suggest a promising path
toward learning challenging real-world control tasks by generative modeling of
sensorimotor trajectories.