Humanoïde voortbeweging als volgende tokenvoorspelling

Samenvatting

We behandelen de besturing van humanoïden in de echte wereld als een next token prediction-probleem, vergelijkbaar met het voorspellen van het volgende woord in taal. Ons model is een causale transformer die wordt getraind via autoregressieve voorspelling van sensomotorische trajecten. Om rekening te houden met de multimodale aard van de data, voeren we de voorspelling uit op een manier die is afgestemd op de modaliteit, waarbij we voor elk invoertoken het volgende token uit dezelfde modaliteit voorspellen. Deze algemene formulering stelt ons in staat om data met ontbrekende modaliteiten te benutten, zoals videotrajecten zonder acties. We trainen ons model op een verzameling gesimuleerde trajecten afkomstig van eerdere neurale netwerkbeleidsregels, modelgebaseerde controllers, motion capture-data en YouTube-video's van mensen. We laten zien dat ons model een volledige humanoïde in staat stelt om zero-shot te lopen in San Francisco. Ons model kan worden overgedragen naar de echte wereld, zelfs wanneer het is getraind op slechts 27 uur aan loopdata, en kan generaliseren naar commando's die niet tijdens de training zijn gezien, zoals achteruit lopen. Deze bevindingen suggereren een veelbelovende weg naar het leren van uitdagende besturingstaken in de echte wereld door generatieve modellering van sensomotorische trajecten.

English

We cast real-world humanoid control as a next token prediction problem, akin to predicting the next word in language. Our model is a causal transformer trained via autoregressive prediction of sensorimotor trajectories. To account for the multi-modal nature of the data, we perform prediction in a modality-aligned way, and for each input token predict the next token from the same modality. This general formulation enables us to leverage data with missing modalities, like video trajectories without actions. We train our model on a collection of simulated trajectories coming from prior neural network policies, model-based controllers, motion capture data, and YouTube videos of humans. We show that our model enables a full-sized humanoid to walk in San Francisco zero-shot. Our model can transfer to the real world even when trained on only 27 hours of walking data, and can generalize to commands not seen during training like walking backward. These findings suggest a promising path toward learning challenging real-world control tasks by generative modeling of sensorimotor trajectories.

Humanoïde voortbeweging als volgende tokenvoorspelling

Humanoid Locomotion as Next Token Prediction

Samenvatting

Support