La locomoción humanoide como predicción del siguiente token
Humanoid Locomotion as Next Token Prediction
February 29, 2024
Autores: Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
cs.AI
Resumen
Planteamos el control de humanoides en el mundo real como un problema de predicción del siguiente token, similar a predecir la siguiente palabra en el lenguaje. Nuestro modelo es un transformador causal entrenado mediante predicción autorregresiva de trayectorias sensorimotoras. Para abordar la naturaleza multimodal de los datos, realizamos la predicción de manera alineada por modalidad, donde para cada token de entrada predecimos el siguiente token de la misma modalidad. Esta formulación general nos permite aprovechar datos con modalidades faltantes, como trayectorias de video sin acciones. Entrenamos nuestro modelo en una colección de trayectorias simuladas provenientes de políticas previas de redes neuronales, controladores basados en modelos, datos de captura de movimiento y videos de YouTube de humanos. Demostramos que nuestro modelo permite que un humanoide de tamaño completo camine en San Francisco sin ajuste previo (zero-shot). Nuestro modelo puede transferirse al mundo real incluso cuando se entrena con solo 27 horas de datos de caminata, y puede generalizar a comandos no vistos durante el entrenamiento, como caminar hacia atrás. Estos hallazgos sugieren un camino prometedor hacia el aprendizaje de tareas de control desafiantes en el mundo real mediante el modelado generativo de trayectorias sensorimotoras.
English
We cast real-world humanoid control as a next token prediction problem, akin
to predicting the next word in language. Our model is a causal transformer
trained via autoregressive prediction of sensorimotor trajectories. To account
for the multi-modal nature of the data, we perform prediction in a
modality-aligned way, and for each input token predict the next token from the
same modality. This general formulation enables us to leverage data with
missing modalities, like video trajectories without actions. We train our model
on a collection of simulated trajectories coming from prior neural network
policies, model-based controllers, motion capture data, and YouTube videos of
humans. We show that our model enables a full-sized humanoid to walk in San
Francisco zero-shot. Our model can transfer to the real world even when trained
on only 27 hours of walking data, and can generalize to commands not seen
during training like walking backward. These findings suggest a promising path
toward learning challenging real-world control tasks by generative modeling of
sensorimotor trajectories.