ヒューマノイドの移動動作を次のトークン予測として捉える
Humanoid Locomotion as Next Token Prediction
February 29, 2024
著者: Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
cs.AI
要旨
現実世界のヒューマノイド制御を、言語における次の単語を予測する問題と同様に、次のトークン予測問題として捉えます。私たちのモデルは、感覚運動軌跡の自己回帰的予測を通じて訓練された因果的トランスフォーマーです。データのマルチモーダル性を考慮するため、モダリティに沿った方法で予測を行い、各入力トークンに対して同じモダリティの次のトークンを予測します。この一般的な定式化により、行動を伴わないビデオ軌跡など、欠落したモダリティを持つデータを活用することが可能になります。私たちは、以前のニューラルネットワークポリシー、モデルベースのコントローラー、モーションキャプチャデータ、および人間のYouTube動画から得られたシミュレーション軌跡のコレクションでモデルを訓練します。私たちのモデルは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩行することを可能にします。このモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に転移でき、訓練中に見られなかった後退歩行などのコマンドに一般化できます。これらの発見は、感覚運動軌跡の生成的モデリングを通じて、挑戦的な現実世界の制御タスクを学習するための有望な道筋を示唆しています。
English
We cast real-world humanoid control as a next token prediction problem, akin
to predicting the next word in language. Our model is a causal transformer
trained via autoregressive prediction of sensorimotor trajectories. To account
for the multi-modal nature of the data, we perform prediction in a
modality-aligned way, and for each input token predict the next token from the
same modality. This general formulation enables us to leverage data with
missing modalities, like video trajectories without actions. We train our model
on a collection of simulated trajectories coming from prior neural network
policies, model-based controllers, motion capture data, and YouTube videos of
humans. We show that our model enables a full-sized humanoid to walk in San
Francisco zero-shot. Our model can transfer to the real world even when trained
on only 27 hours of walking data, and can generalize to commands not seen
during training like walking backward. These findings suggest a promising path
toward learning challenging real-world control tasks by generative modeling of
sensorimotor trajectories.