Esto y Aquello: Generación de Video Controlada por Lenguaje y Gestos para la Planificación de Robots
This&That: Language-Gesture Controlled Video Generation for Robot Planning
July 8, 2024
Autores: Boyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park
cs.AI
Resumen
Proponemos un método de aprendizaje de robots para comunicar, planificar y ejecutar una amplia gama de tareas, denominado Esto y Aquello. Logramos la planificación de robots para tareas generales aprovechando el poder de modelos generativos de video entrenados en datos a escala de internet que contienen un contexto físico y semántico rico. En este trabajo, abordamos tres desafíos fundamentales en la planificación basada en video: 1) comunicación de tareas inequívoca con instrucciones simples para humanos, 2) generación de video controlable que respete las intenciones del usuario, y 3) traducción de la planificación visual en acciones de robots. Proponemos el condicionamiento de lenguaje y gestos para generar videos, lo cual es más simple y claro que los métodos existentes basados solo en lenguaje, especialmente en entornos complejos e inciertos. Luego, sugerimos un diseño de clonación de comportamiento que incorpora sin problemas los planes de video. Esto y Aquello demuestra una efectividad de vanguardia para abordar los tres desafíos mencionados anteriormente, y justifica el uso de la generación de video como una representación intermedia para la planificación y ejecución de tareas generalizables. Sitio web del proyecto: https://cfeng16.github.io/this-and-that/.
English
We propose a robot learning method for communicating, planning, and executing
a wide range of tasks, dubbed This&That. We achieve robot planning for general
tasks by leveraging the power of video generative models trained on
internet-scale data containing rich physical and semantic context. In this
work, we tackle three fundamental challenges in video-based planning: 1)
unambiguous task communication with simple human instructions, 2) controllable
video generation that respects user intents, and 3) translating visual planning
into robot actions. We propose language-gesture conditioning to generate
videos, which is both simpler and clearer than existing language-only methods,
especially in complex and uncertain environments. We then suggest a behavioral
cloning design that seamlessly incorporates the video plans. This&That
demonstrates state-of-the-art effectiveness in addressing the above three
challenges, and justifies the use of video generation as an intermediate
representation for generalizable task planning and execution. Project website:
https://cfeng16.github.io/this-and-that/.Summary
AI-Generated Summary