ChatPaper.aiChatPaper

Locomoção Humanoide como Predição do Próximo Token

Humanoid Locomotion as Next Token Prediction

February 29, 2024
Autores: Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
cs.AI

Resumo

Nós abordamos o controle de humanoides no mundo real como um problema de previsão do próximo token, semelhante à previsão da próxima palavra em linguagem. Nosso modelo é um transformer causal treinado via previsão autoregressiva de trajetórias sensorimotoras. Para lidar com a natureza multimodal dos dados, realizamos a previsão de forma alinhada por modalidade, e para cada token de entrada, prevemos o próximo token da mesma modalidade. Essa formulação geral nos permite aproveitar dados com modalidades ausentes, como trajetórias de vídeo sem ações. Treinamos nosso modelo em uma coleção de trajetórias simuladas provenientes de políticas de redes neurais anteriores, controladores baseados em modelos, dados de captura de movimento e vídeos do YouTube de humanos. Mostramos que nosso modelo permite que um humanoide em tamanho real caminhe em São Francisco de forma zero-shot. Nosso modelo pode ser transferido para o mundo real mesmo quando treinado com apenas 27 horas de dados de caminhada, e pode generalizar para comandos não vistos durante o treinamento, como caminhar para trás. Esses achados sugerem um caminho promissor para aprender tarefas desafiadoras de controle no mundo real por meio da modelagem generativa de trajetórias sensorimotoras.
English
We cast real-world humanoid control as a next token prediction problem, akin to predicting the next word in language. Our model is a causal transformer trained via autoregressive prediction of sensorimotor trajectories. To account for the multi-modal nature of the data, we perform prediction in a modality-aligned way, and for each input token predict the next token from the same modality. This general formulation enables us to leverage data with missing modalities, like video trajectories without actions. We train our model on a collection of simulated trajectories coming from prior neural network policies, model-based controllers, motion capture data, and YouTube videos of humans. We show that our model enables a full-sized humanoid to walk in San Francisco zero-shot. Our model can transfer to the real world even when trained on only 27 hours of walking data, and can generalize to commands not seen during training like walking backward. These findings suggest a promising path toward learning challenging real-world control tasks by generative modeling of sensorimotor trajectories.
PDF282December 15, 2024