This&That: ロボット計画のための言語・ジェスチャー制御によるビデオ生成
This&That: Language-Gesture Controlled Video Generation for Robot Planning
July 8, 2024
著者: Boyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park
cs.AI
要旨
我々は、This&Thatと名付けた、幅広いタスクのコミュニケーション、計画、実行のためのロボット学習手法を提案する。インターネット規模のデータに基づいて訓練されたビデオ生成モデルの力を活用することで、一般的なタスクに対するロボット計画を実現する。本論文では、ビデオベースの計画における3つの根本的な課題に取り組む:1)簡潔な人間の指示による明確なタスクコミュニケーション、2)ユーザーの意図を尊重した制御可能なビデオ生成、3)視覚的計画をロボット動作に変換すること。我々は、言語とジェスチャーを組み合わせた条件付けによるビデオ生成を提案し、特に複雑で不確実な環境において、既存の言語のみの手法よりもシンプルで明確な方法を実現する。さらに、ビデオ計画をシームレスに組み込んだ行動クローニング設計を提案する。This&Thatは、上記の3つの課題に対処する際に最先端の有効性を示し、汎用的なタスク計画と実行の中間表現としてビデオ生成を利用することの正当性を裏付ける。プロジェクトウェブサイト:https://cfeng16.github.io/this-and-that/
English
We propose a robot learning method for communicating, planning, and executing
a wide range of tasks, dubbed This&That. We achieve robot planning for general
tasks by leveraging the power of video generative models trained on
internet-scale data containing rich physical and semantic context. In this
work, we tackle three fundamental challenges in video-based planning: 1)
unambiguous task communication with simple human instructions, 2) controllable
video generation that respects user intents, and 3) translating visual planning
into robot actions. We propose language-gesture conditioning to generate
videos, which is both simpler and clearer than existing language-only methods,
especially in complex and uncertain environments. We then suggest a behavioral
cloning design that seamlessly incorporates the video plans. This&That
demonstrates state-of-the-art effectiveness in addressing the above three
challenges, and justifies the use of video generation as an intermediate
representation for generalizable task planning and execution. Project website:
https://cfeng16.github.io/this-and-that/.Summary
AI-Generated Summary