ChatPaper.aiChatPaper

Gen2Act: 新しいシナリオでの人間のビデオ生成は、汎用性のあるロボット操作を可能にします。

Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation

September 24, 2024
著者: Homanga Bharadhwaj, Debidatta Dwibedi, Abhinav Gupta, Shubham Tulsiani, Carl Doersch, Ted Xiao, Dhruv Shah, Fei Xia, Dorsa Sadigh, Sean Kirmani
cs.AI

要旨

ロボットの操作ポリシーが、未知のオブジェクトタイプや新しい動作を含む新しいタスクに一般化する方法は何ですか?本論文では、人間のビデオ生成を介したウェブデータからの動作情報の予測と、生成されたビデオにロボットポリシーを調整することで、この問題に対する解決策を提供します。高コストのロボットデータ収集を試みる代わりに、容易に入手可能なウェブデータでトレーニングされたビデオ生成モデルを活用する方法を示します。私たちのアプローチであるGen2Actは、ゼロショットの人間ビデオ生成と、生成されたビデオに調整された単一ポリシーによる実行として、言語に依存した操作をキャストします。ポリシーをトレーニングするために、ビデオ予測モデルがトレーニングされたデータ量と比較して、1桁少ないロボットの相互作用データを使用します。Gen2Actはビデオモデルの微調整を一切必要とせず、人間のビデオを生成するために事前にトレーニングされたモデルを直接使用します。多様な実世界シナリオでの結果は、Gen2Actがロボットデータに存在しないタスクに対して未知のオブジェクトタイプを操作し、新しい動作を実行することを可能にすることを示しています。ビデオはこちらでご覧いただけます:https://homangab.github.io/gen2act/
English
How can robot manipulation policies generalize to novel tasks involving unseen object types and new motions? In this paper, we provide a solution in terms of predicting motion information from web data through human video generation and conditioning a robot policy on the generated video. Instead of attempting to scale robot data collection which is expensive, we show how we can leverage video generation models trained on easily available web data, for enabling generalization. Our approach Gen2Act casts language-conditioned manipulation as zero-shot human video generation followed by execution with a single policy conditioned on the generated video. To train the policy, we use an order of magnitude less robot interaction data compared to what the video prediction model was trained on. Gen2Act doesn't require fine-tuning the video model at all and we directly use a pre-trained model for generating human videos. Our results on diverse real-world scenarios show how Gen2Act enables manipulating unseen object types and performing novel motions for tasks not present in the robot data. Videos are at https://homangab.github.io/gen2act/

Summary

AI-Generated Summary

PDF82November 16, 2024