ChatPaper.aiChatPaper

Это и То: Генерация видео с управлением языком и жестами для планирования роботов

This&That: Language-Gesture Controlled Video Generation for Robot Planning

July 8, 2024
Авторы: Boyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park
cs.AI

Аннотация

Мы предлагаем метод обучения роботов для общения, планирования и выполнения широкого спектра задач, названный This&That. Мы достигаем планирования роботов для общих задач, используя мощь видео-генеративных моделей, обученных на данных интернет-масштаба, содержащих богатый физический и семантический контекст. В данной работе мы решаем три фундаментальных задачи в планировании на основе видео: 1) однозначное общение задач с помощью простых человеческих инструкций, 2) управляемая генерация видео, учитывающая намерения пользователя, и 3) преобразование визуального планирования в действия робота. Мы предлагаем использование языково-жестовой зависимости для генерации видео, которая является как более простой, так и более понятной, чем существующие методы только на основе языка, особенно в сложных и неопределенных средах. Затем мы предлагаем дизайн клонирования поведения, который без проблем интегрирует видео-планы. This&That демонстрирует передовую эффективность в решении вышеупомянутых трех задач и обосновывает использование генерации видео в качестве промежуточного представления для обобщенного планирования и выполнения задач. Веб-сайт проекта: https://cfeng16.github.io/this-and-that/.
English
We propose a robot learning method for communicating, planning, and executing a wide range of tasks, dubbed This&That. We achieve robot planning for general tasks by leveraging the power of video generative models trained on internet-scale data containing rich physical and semantic context. In this work, we tackle three fundamental challenges in video-based planning: 1) unambiguous task communication with simple human instructions, 2) controllable video generation that respects user intents, and 3) translating visual planning into robot actions. We propose language-gesture conditioning to generate videos, which is both simpler and clearer than existing language-only methods, especially in complex and uncertain environments. We then suggest a behavioral cloning design that seamlessly incorporates the video plans. This&That demonstrates state-of-the-art effectiveness in addressing the above three challenges, and justifies the use of video generation as an intermediate representation for generalizable task planning and execution. Project website: https://cfeng16.github.io/this-and-that/.

Summary

AI-Generated Summary

PDF41November 28, 2024