Humanoïde voortbeweging als volgende tokenvoorspelling
Humanoid Locomotion as Next Token Prediction
February 29, 2024
Auteurs: Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
cs.AI
Samenvatting
We behandelen de besturing van humanoïden in de echte wereld als een next token prediction-probleem, vergelijkbaar met het voorspellen van het volgende woord in taal. Ons model is een causale transformer die wordt getraind via autoregressieve voorspelling van sensomotorische trajecten. Om rekening te houden met de multimodale aard van de data, voeren we de voorspelling uit op een manier die is afgestemd op de modaliteit, waarbij we voor elk invoertoken het volgende token uit dezelfde modaliteit voorspellen. Deze algemene formulering stelt ons in staat om data met ontbrekende modaliteiten te benutten, zoals videotrajecten zonder acties. We trainen ons model op een verzameling gesimuleerde trajecten afkomstig van eerdere neurale netwerkbeleidsregels, modelgebaseerde controllers, motion capture-data en YouTube-video's van mensen. We laten zien dat ons model een volledige humanoïde in staat stelt om zero-shot te lopen in San Francisco. Ons model kan worden overgedragen naar de echte wereld, zelfs wanneer het is getraind op slechts 27 uur aan loopdata, en kan generaliseren naar commando's die niet tijdens de training zijn gezien, zoals achteruit lopen. Deze bevindingen suggereren een veelbelovende weg naar het leren van uitdagende besturingstaken in de echte wereld door generatieve modellering van sensomotorische trajecten.
English
We cast real-world humanoid control as a next token prediction problem, akin
to predicting the next word in language. Our model is a causal transformer
trained via autoregressive prediction of sensorimotor trajectories. To account
for the multi-modal nature of the data, we perform prediction in a
modality-aligned way, and for each input token predict the next token from the
same modality. This general formulation enables us to leverage data with
missing modalities, like video trajectories without actions. We train our model
on a collection of simulated trajectories coming from prior neural network
policies, model-based controllers, motion capture data, and YouTube videos of
humans. We show that our model enables a full-sized humanoid to walk in San
Francisco zero-shot. Our model can transfer to the real world even when trained
on only 27 hours of walking data, and can generalize to commands not seen
during training like walking backward. These findings suggest a promising path
toward learning challenging real-world control tasks by generative modeling of
sensorimotor trajectories.