ChatPaper.aiChatPaper

La locomotion humanoïde comme prédiction du prochain token

Humanoid Locomotion as Next Token Prediction

February 29, 2024
Auteurs: Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
cs.AI

Résumé

Nous formulons le contrôle d'un humanoïde dans le monde réel comme un problème de prédiction du prochain jeton, similaire à la prédiction du mot suivant dans le langage. Notre modèle est un transformeur causal entraîné via la prédiction autorégressive de trajectoires sensorimotrices. Pour tenir compte de la nature multimodale des données, nous effectuons la prédiction de manière alignée par modalité, et pour chaque jeton d'entrée, nous prédisons le jeton suivant de la même modalité. Cette formulation générale nous permet d'exploiter des données avec des modalités manquantes, comme des trajectoires vidéo sans actions. Nous entraînons notre modèle sur un ensemble de trajectoires simulées provenant de politiques de réseaux neuronaux antérieures, de contrôleurs basés sur des modèles, de données de capture de mouvement et de vidéos YouTube d'humains. Nous montrons que notre modèle permet à un humanoïde de taille réelle de marcher à San Francisco en zero-shot. Notre modèle peut être transféré au monde réel même lorsqu'il est entraîné sur seulement 27 heures de données de marche, et peut généraliser à des commandes non vues pendant l'entraînement, comme marcher en arrière. Ces résultats suggèrent une voie prometteuse pour l'apprentissage de tâches de contrôle complexes dans le monde réel grâce à la modélisation générative de trajectoires sensorimotrices.
English
We cast real-world humanoid control as a next token prediction problem, akin to predicting the next word in language. Our model is a causal transformer trained via autoregressive prediction of sensorimotor trajectories. To account for the multi-modal nature of the data, we perform prediction in a modality-aligned way, and for each input token predict the next token from the same modality. This general formulation enables us to leverage data with missing modalities, like video trajectories without actions. We train our model on a collection of simulated trajectories coming from prior neural network policies, model-based controllers, motion capture data, and YouTube videos of humans. We show that our model enables a full-sized humanoid to walk in San Francisco zero-shot. Our model can transfer to the real world even when trained on only 27 hours of walking data, and can generalize to commands not seen during training like walking backward. These findings suggest a promising path toward learning challenging real-world control tasks by generative modeling of sensorimotor trajectories.
PDF292December 15, 2024