Dies&Das: Sprach-Gesteuerte Videoerzeugung für die Roboterplanung

papers.abstract

Wir schlagen eine Roboterlernmethode für die Kommunikation, Planung und Ausführung einer Vielzahl von Aufgaben vor, genannt Dies&Das. Wir erreichen die Roboterplanung für allgemeine Aufgaben, indem wir die Leistung von Video-generativen Modellen nutzen, die auf internetweiten Daten trainiert sind und einen reichen physikalischen und semantischen Kontext enthalten. In dieser Arbeit behandeln wir drei grundlegende Herausforderungen bei der Video-basierten Planung: 1) eindeutige Aufgabenkommunikation mit einfachen menschlichen Anweisungen, 2) steuerbare Videoerzeugung, die die Absichten des Benutzers respektiert, und 3) die Übersetzung visueller Planung in Roboteraktionen. Wir schlagen eine Sprach-Gesten-Konditionierung zur Generierung von Videos vor, die sowohl einfacher als auch klarer ist als bestehende Methoden, insbesondere in komplexen und unsicheren Umgebungen. Anschließend schlagen wir ein Verhaltensklon-Design vor, das die Videopläne nahtlos integriert. Dies&Das zeigt eine Spitzenwirksamkeit bei der Bewältigung der oben genannten drei Herausforderungen und rechtfertigt die Verwendung der Videoerzeugung als Zwischenrepräsentation für generalisierbare Aufgabenplanung und -ausführung. Projekthomepage: https://cfeng16.github.io/this-and-that/.

English

We propose a robot learning method for communicating, planning, and executing a wide range of tasks, dubbed This&That. We achieve robot planning for general tasks by leveraging the power of video generative models trained on internet-scale data containing rich physical and semantic context. In this work, we tackle three fundamental challenges in video-based planning: 1) unambiguous task communication with simple human instructions, 2) controllable video generation that respects user intents, and 3) translating visual planning into robot actions. We propose language-gesture conditioning to generate videos, which is both simpler and clearer than existing language-only methods, especially in complex and uncertain environments. We then suggest a behavioral cloning design that seamlessly incorporates the video plans. This&That demonstrates state-of-the-art effectiveness in addressing the above three challenges, and justifies the use of video generation as an intermediate representation for generalizable task planning and execution. Project website: https://cfeng16.github.io/this-and-that/.

Dies&Das: Sprach-Gesteuerte Videoerzeugung für die Roboterplanung

This&That: Language-Gesture Controlled Video Generation for Robot Planning

papers.abstract

Support