ChatPaper.aiChatPaper

Dies&Das: Sprach-Gesteuerte Videoerzeugung für die Roboterplanung

This&That: Language-Gesture Controlled Video Generation for Robot Planning

July 8, 2024
papers.authors: Boyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park
cs.AI

papers.abstract

Wir schlagen eine Roboterlernmethode für die Kommunikation, Planung und Ausführung einer Vielzahl von Aufgaben vor, genannt Dies&Das. Wir erreichen die Roboterplanung für allgemeine Aufgaben, indem wir die Leistung von Video-generativen Modellen nutzen, die auf internetweiten Daten trainiert sind und einen reichen physikalischen und semantischen Kontext enthalten. In dieser Arbeit behandeln wir drei grundlegende Herausforderungen bei der Video-basierten Planung: 1) eindeutige Aufgabenkommunikation mit einfachen menschlichen Anweisungen, 2) steuerbare Videoerzeugung, die die Absichten des Benutzers respektiert, und 3) die Übersetzung visueller Planung in Roboteraktionen. Wir schlagen eine Sprach-Gesten-Konditionierung zur Generierung von Videos vor, die sowohl einfacher als auch klarer ist als bestehende Methoden, insbesondere in komplexen und unsicheren Umgebungen. Anschließend schlagen wir ein Verhaltensklon-Design vor, das die Videopläne nahtlos integriert. Dies&Das zeigt eine Spitzenwirksamkeit bei der Bewältigung der oben genannten drei Herausforderungen und rechtfertigt die Verwendung der Videoerzeugung als Zwischenrepräsentation für generalisierbare Aufgabenplanung und -ausführung. Projekthomepage: https://cfeng16.github.io/this-and-that/.
English
We propose a robot learning method for communicating, planning, and executing a wide range of tasks, dubbed This&That. We achieve robot planning for general tasks by leveraging the power of video generative models trained on internet-scale data containing rich physical and semantic context. In this work, we tackle three fundamental challenges in video-based planning: 1) unambiguous task communication with simple human instructions, 2) controllable video generation that respects user intents, and 3) translating visual planning into robot actions. We propose language-gesture conditioning to generate videos, which is both simpler and clearer than existing language-only methods, especially in complex and uncertain environments. We then suggest a behavioral cloning design that seamlessly incorporates the video plans. This&That demonstrates state-of-the-art effectiveness in addressing the above three challenges, and justifies the use of video generation as an intermediate representation for generalizable task planning and execution. Project website: https://cfeng16.github.io/this-and-that/.
PDF41November 28, 2024