Gen2Act: 新しいシナリオでの人間のビデオ生成は、汎用性のあるロボット操作を可能にします。
Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation
September 24, 2024
著者: Homanga Bharadhwaj, Debidatta Dwibedi, Abhinav Gupta, Shubham Tulsiani, Carl Doersch, Ted Xiao, Dhruv Shah, Fei Xia, Dorsa Sadigh, Sean Kirmani
cs.AI
要旨
ロボットの操作ポリシーが、未知のオブジェクトタイプや新しい動作を含む新しいタスクに一般化する方法は何ですか?本論文では、人間のビデオ生成を介したウェブデータからの動作情報の予測と、生成されたビデオにロボットポリシーを調整することで、この問題に対する解決策を提供します。高コストのロボットデータ収集を試みる代わりに、容易に入手可能なウェブデータでトレーニングされたビデオ生成モデルを活用する方法を示します。私たちのアプローチであるGen2Actは、ゼロショットの人間ビデオ生成と、生成されたビデオに調整された単一ポリシーによる実行として、言語に依存した操作をキャストします。ポリシーをトレーニングするために、ビデオ予測モデルがトレーニングされたデータ量と比較して、1桁少ないロボットの相互作用データを使用します。Gen2Actはビデオモデルの微調整を一切必要とせず、人間のビデオを生成するために事前にトレーニングされたモデルを直接使用します。多様な実世界シナリオでの結果は、Gen2Actがロボットデータに存在しないタスクに対して未知のオブジェクトタイプを操作し、新しい動作を実行することを可能にすることを示しています。ビデオはこちらでご覧いただけます:https://homangab.github.io/gen2act/
English
How can robot manipulation policies generalize to novel tasks involving
unseen object types and new motions? In this paper, we provide a solution in
terms of predicting motion information from web data through human video
generation and conditioning a robot policy on the generated video. Instead of
attempting to scale robot data collection which is expensive, we show how we
can leverage video generation models trained on easily available web data, for
enabling generalization. Our approach Gen2Act casts language-conditioned
manipulation as zero-shot human video generation followed by execution with a
single policy conditioned on the generated video. To train the policy, we use
an order of magnitude less robot interaction data compared to what the video
prediction model was trained on. Gen2Act doesn't require fine-tuning the video
model at all and we directly use a pre-trained model for generating human
videos. Our results on diverse real-world scenarios show how Gen2Act enables
manipulating unseen object types and performing novel motions for tasks not
present in the robot data. Videos are at https://homangab.github.io/gen2act/Summary
AI-Generated Summary