ChatPaper.aiChatPaper

This&That: Taal-Gebarengestuurde Videogeneratie voor Robotplanning

This&That: Language-Gesture Controlled Video Generation for Robot Planning

July 8, 2024
Auteurs: Boyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park
cs.AI

Samenvatting

Wij stellen een robotleermethode voor voor het communiceren, plannen en uitvoeren van een breed scala aan taken, genaamd This&That. We bereiken robotplanning voor algemene taken door gebruik te maken van de kracht van videogeneratieve modellen die getraind zijn op internet-schaal data met rijke fysieke en semantische context. In dit werk pakken we drie fundamentele uitdagingen aan in videogebaseerde planning: 1) eenduidige taakcommunicatie met eenvoudige menselijke instructies, 2) beheersbare videogeneratie die rekening houdt met gebruikersintenties, en 3) het vertalen van visuele planning naar robotacties. Wij stellen taal-gestuurde conditionering voor om video's te genereren, wat zowel eenvoudiger als duidelijker is dan bestaande taal-alleen methoden, vooral in complexe en onzekere omgevingen. Vervolgens suggereren we een ontwerp voor gedragscloning dat naadloos de videoplannen integreert. This&That toont state-of-the-art effectiviteit in het aanpakken van de bovenstaande drie uitdagingen, en rechtvaardigt het gebruik van videogeneratie als een tussenliggende representatie voor generaliseerbare taakplanning en -uitvoering. Projectwebsite: https://cfeng16.github.io/this-and-that/.
English
We propose a robot learning method for communicating, planning, and executing a wide range of tasks, dubbed This&That. We achieve robot planning for general tasks by leveraging the power of video generative models trained on internet-scale data containing rich physical and semantic context. In this work, we tackle three fundamental challenges in video-based planning: 1) unambiguous task communication with simple human instructions, 2) controllable video generation that respects user intents, and 3) translating visual planning into robot actions. We propose language-gesture conditioning to generate videos, which is both simpler and clearer than existing language-only methods, especially in complex and uncertain environments. We then suggest a behavioral cloning design that seamlessly incorporates the video plans. This&That demonstrates state-of-the-art effectiveness in addressing the above three challenges, and justifies the use of video generation as an intermediate representation for generalizable task planning and execution. Project website: https://cfeng16.github.io/this-and-that/.
PDF41November 28, 2024