ChatPaper.aiChatPaper

This&That: 로봇 계획을 위한 언어-제스처 제어 비디오 생성

This&That: Language-Gesture Controlled Video Generation for Robot Planning

July 8, 2024
저자: Boyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park
cs.AI

초록

우리는 다양한 작업을 소통, 계획 및 실행하기 위한 로봇 학습 방법을 제안하며, 이를 'This&That'이라 명명합니다. 우리는 인터넷 규모의 데이터로 학습된 비디오 생성 모델의 힘을 활용하여 일반적인 작업에 대한 로봇 계획을 달성합니다. 이 데이터는 풍부한 물리적 및 의미론적 맥락을 포함하고 있습니다. 본 연구에서 우리는 비디오 기반 계획에서의 세 가지 근본적인 문제를 해결합니다: 1) 간단한 인간 지시로 명확한 작업 소통, 2) 사용자 의도를 존중하는 제어 가능한 비디오 생성, 3) 시각적 계획을 로봇 동작으로 변환. 우리는 기존의 언어만을 사용한 방법보다 더 간단하고 명확한 언어-제스처 조건화를 통해 비디오를 생성하는 방법을 제안하며, 특히 복잡하고 불확실한 환경에서 더 효과적입니다. 그런 다음, 비디오 계획을 원활하게 통합하는 행동 복제 설계를 제안합니다. 'This&That'은 위의 세 가지 문제를 해결하는 데 있어 최첨단의 효과를 입증하며, 일반화 가능한 작업 계획 및 실행을 위한 중간 표현으로서 비디오 생성의 사용을 정당화합니다. 프로젝트 웹사이트: https://cfeng16.github.io/this-and-that/.
English
We propose a robot learning method for communicating, planning, and executing a wide range of tasks, dubbed This&That. We achieve robot planning for general tasks by leveraging the power of video generative models trained on internet-scale data containing rich physical and semantic context. In this work, we tackle three fundamental challenges in video-based planning: 1) unambiguous task communication with simple human instructions, 2) controllable video generation that respects user intents, and 3) translating visual planning into robot actions. We propose language-gesture conditioning to generate videos, which is both simpler and clearer than existing language-only methods, especially in complex and uncertain environments. We then suggest a behavioral cloning design that seamlessly incorporates the video plans. This&That demonstrates state-of-the-art effectiveness in addressing the above three challenges, and justifies the use of video generation as an intermediate representation for generalizable task planning and execution. Project website: https://cfeng16.github.io/this-and-that/.

Summary

AI-Generated Summary

PDF41November 28, 2024