Humanoide Fortbewegung als nächste Token-Vorhersage
Humanoid Locomotion as Next Token Prediction
February 29, 2024
Autoren: Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
cs.AI
Zusammenfassung
Wir formulieren die Steuerung von menschenähnlichen Robotern in der realen Welt als ein Problem der Vorhersage des nächsten Tokens, ähnlich der Vorhersage des nächsten Wortes in der Sprache. Unser Modell ist ein kausaler Transformer, der durch autoregressive Vorhersage von sensomotorischen Trajektorien trainiert wird. Um der multimodalen Natur der Daten gerecht zu werden, führen wir die Vorhersage in einer modalitätsausgerichteten Weise durch und prognostizieren für jeden Eingabetoken den nächsten Token aus derselben Modalität. Diese allgemeine Formulierung ermöglicht es uns, Daten mit fehlenden Modalitäten zu nutzen, wie beispielsweise Video-Trajektorien ohne Aktionen. Wir trainieren unser Modell auf einer Sammlung von simulierten Trajektorien, die aus vorherigen neuronalen Netzwerk-Policies, modellbasierten Controllern, Motion-Capture-Daten und YouTube-Videos von Menschen stammen. Wir zeigen, dass unser Modell einen vollständig menschenähnlichen Roboter dazu befähigt, in San Francisco ohne vorheriges Training zu laufen. Unser Modell kann in die reale Welt übertragen werden, selbst wenn es nur mit 27 Stunden Laufdaten trainiert wurde, und kann auf Befehle generalisieren, die während des Trainings nicht gesehen wurden, wie beispielsweise rückwärts zu laufen. Diese Ergebnisse deuten auf einen vielversprechenden Weg hin, anspruchsvolle Steuerungsaufgaben in der realen Welt durch generatives Modellieren von sensomotorischen Trajektorien zu erlernen.
English
We cast real-world humanoid control as a next token prediction problem, akin
to predicting the next word in language. Our model is a causal transformer
trained via autoregressive prediction of sensorimotor trajectories. To account
for the multi-modal nature of the data, we perform prediction in a
modality-aligned way, and for each input token predict the next token from the
same modality. This general formulation enables us to leverage data with
missing modalities, like video trajectories without actions. We train our model
on a collection of simulated trajectories coming from prior neural network
policies, model-based controllers, motion capture data, and YouTube videos of
humans. We show that our model enables a full-sized humanoid to walk in San
Francisco zero-shot. Our model can transfer to the real world even when trained
on only 27 hours of walking data, and can generalize to commands not seen
during training like walking backward. These findings suggest a promising path
toward learning challenging real-world control tasks by generative modeling of
sensorimotor trajectories.