This&That : Génération de vidéos contrôlée par le langage et les gestes pour la planification robotique
This&That: Language-Gesture Controlled Video Generation for Robot Planning
July 8, 2024
Auteurs: Boyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park
cs.AI
Résumé
Nous proposons une méthode d'apprentissage robotique pour communiquer, planifier et exécuter une large gamme de tâches, baptisée This&That. Nous réalisons la planification robotique pour des tâches générales en exploitant la puissance des modèles génératifs de vidéos entraînés sur des données à l'échelle d'Internet contenant un riche contexte physique et sémantique. Dans ce travail, nous abordons trois défis fondamentaux dans la planification basée sur la vidéo : 1) la communication non ambiguë des tâches avec des instructions humaines simples, 2) la génération contrôlée de vidéos respectant les intentions de l'utilisateur, et 3) la traduction de la planification visuelle en actions robotiques. Nous proposons un conditionnement par le langage et les gestes pour générer des vidéos, ce qui est à la fois plus simple et plus clair que les méthodes existantes basées uniquement sur le langage, en particulier dans des environnements complexes et incertains. Nous suggérons ensuite une conception de clonage comportemental qui intègre de manière fluide les plans vidéo. This&That démontre une efficacité de pointe pour relever les trois défis mentionnés ci-dessus, et justifie l'utilisation de la génération de vidéos comme représentation intermédiaire pour la planification et l'exécution généralisables des tâches. Site web du projet : https://cfeng16.github.io/this-and-that/.
English
We propose a robot learning method for communicating, planning, and executing
a wide range of tasks, dubbed This&That. We achieve robot planning for general
tasks by leveraging the power of video generative models trained on
internet-scale data containing rich physical and semantic context. In this
work, we tackle three fundamental challenges in video-based planning: 1)
unambiguous task communication with simple human instructions, 2) controllable
video generation that respects user intents, and 3) translating visual planning
into robot actions. We propose language-gesture conditioning to generate
videos, which is both simpler and clearer than existing language-only methods,
especially in complex and uncertain environments. We then suggest a behavioral
cloning design that seamlessly incorporates the video plans. This&That
demonstrates state-of-the-art effectiveness in addressing the above three
challenges, and justifies the use of video generation as an intermediate
representation for generalizable task planning and execution. Project website:
https://cfeng16.github.io/this-and-that/.Summary
AI-Generated Summary