Локомоция гуманоида как предсказание следующего токена
Humanoid Locomotion as Next Token Prediction
February 29, 2024
Авторы: Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
cs.AI
Аннотация
Мы представляем управление гуманоидами в реальном мире как проблему предсказания следующего токена, аналогичную предсказанию следующего слова в языке. Наша модель - это причинный трансформер, обученный путем авторегрессивного предсказания траекторий сенсорно-двигательных данных. Для учета мультимодальной природы данных мы выполняем предсказание способом, выровненным по модальностям, и для каждого входного токена предсказываем следующий токен из той же модальности. Эта общая формулировка позволяет нам использовать данные с отсутствующими модальностями, например, видеотраектории без действий. Мы обучаем нашу модель на коллекции симулированных траекторий, полученных из предыдущих политик нейронных сетей, контроллеров на основе моделей, данных захвата движения и видеороликов с людьми на YouTube. Мы показываем, что наша модель позволяет полноразмерному гуманоиду ходить в Сан-Франциско без предварительного обучения. Наша модель способна переноситься в реальный мир даже при обучении всего на 27 часах данных о ходьбе и может обобщаться на команды, не встреченные во время обучения, например, ходьбу назад. Эти результаты указывают на многообещающий путь к изучению сложных задач управления в реальном мире путем генеративного моделирования траекторий сенсорно-двигательных данных.
English
We cast real-world humanoid control as a next token prediction problem, akin
to predicting the next word in language. Our model is a causal transformer
trained via autoregressive prediction of sensorimotor trajectories. To account
for the multi-modal nature of the data, we perform prediction in a
modality-aligned way, and for each input token predict the next token from the
same modality. This general formulation enables us to leverage data with
missing modalities, like video trajectories without actions. We train our model
on a collection of simulated trajectories coming from prior neural network
policies, model-based controllers, motion capture data, and YouTube videos of
humans. We show that our model enables a full-sized humanoid to walk in San
Francisco zero-shot. Our model can transfer to the real world even when trained
on only 27 hours of walking data, and can generalize to commands not seen
during training like walking backward. These findings suggest a promising path
toward learning challenging real-world control tasks by generative modeling of
sensorimotor trajectories.