ChatPaper.aiChatPaper

Humanoide Fortbewegung als nächste Token-Vorhersage

Humanoid Locomotion as Next Token Prediction

February 29, 2024
Autoren: Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
cs.AI

Zusammenfassung

Wir formulieren die Steuerung von menschenähnlichen Robotern in der realen Welt als ein Problem der Vorhersage des nächsten Tokens, ähnlich der Vorhersage des nächsten Wortes in der Sprache. Unser Modell ist ein kausaler Transformer, der durch autoregressive Vorhersage von sensomotorischen Trajektorien trainiert wird. Um der multimodalen Natur der Daten gerecht zu werden, führen wir die Vorhersage in einer modalitätsausgerichteten Weise durch und prognostizieren für jeden Eingabetoken den nächsten Token aus derselben Modalität. Diese allgemeine Formulierung ermöglicht es uns, Daten mit fehlenden Modalitäten zu nutzen, wie beispielsweise Video-Trajektorien ohne Aktionen. Wir trainieren unser Modell auf einer Sammlung von simulierten Trajektorien, die aus vorherigen neuronalen Netzwerk-Policies, modellbasierten Controllern, Motion-Capture-Daten und YouTube-Videos von Menschen stammen. Wir zeigen, dass unser Modell einen vollständig menschenähnlichen Roboter dazu befähigt, in San Francisco ohne vorheriges Training zu laufen. Unser Modell kann in die reale Welt übertragen werden, selbst wenn es nur mit 27 Stunden Laufdaten trainiert wurde, und kann auf Befehle generalisieren, die während des Trainings nicht gesehen wurden, wie beispielsweise rückwärts zu laufen. Diese Ergebnisse deuten auf einen vielversprechenden Weg hin, anspruchsvolle Steuerungsaufgaben in der realen Welt durch generatives Modellieren von sensomotorischen Trajektorien zu erlernen.
English
We cast real-world humanoid control as a next token prediction problem, akin to predicting the next word in language. Our model is a causal transformer trained via autoregressive prediction of sensorimotor trajectories. To account for the multi-modal nature of the data, we perform prediction in a modality-aligned way, and for each input token predict the next token from the same modality. This general formulation enables us to leverage data with missing modalities, like video trajectories without actions. We train our model on a collection of simulated trajectories coming from prior neural network policies, model-based controllers, motion capture data, and YouTube videos of humans. We show that our model enables a full-sized humanoid to walk in San Francisco zero-shot. Our model can transfer to the real world even when trained on only 27 hours of walking data, and can generalize to commands not seen during training like walking backward. These findings suggest a promising path toward learning challenging real-world control tasks by generative modeling of sensorimotor trajectories.
PDF292December 15, 2024