This&That: Taal-Gebarengestuurde Videogeneratie voor Robotplanning

Samenvatting

Wij stellen een robotleermethode voor voor het communiceren, plannen en uitvoeren van een breed scala aan taken, genaamd This&That. We bereiken robotplanning voor algemene taken door gebruik te maken van de kracht van videogeneratieve modellen die getraind zijn op internet-schaal data met rijke fysieke en semantische context. In dit werk pakken we drie fundamentele uitdagingen aan in videogebaseerde planning: 1) eenduidige taakcommunicatie met eenvoudige menselijke instructies, 2) beheersbare videogeneratie die rekening houdt met gebruikersintenties, en 3) het vertalen van visuele planning naar robotacties. Wij stellen taal-gestuurde conditionering voor om video's te genereren, wat zowel eenvoudiger als duidelijker is dan bestaande taal-alleen methoden, vooral in complexe en onzekere omgevingen. Vervolgens suggereren we een ontwerp voor gedragscloning dat naadloos de videoplannen integreert. This&That toont state-of-the-art effectiviteit in het aanpakken van de bovenstaande drie uitdagingen, en rechtvaardigt het gebruik van videogeneratie als een tussenliggende representatie voor generaliseerbare taakplanning en -uitvoering. Projectwebsite: https://cfeng16.github.io/this-and-that/.

English

We propose a robot learning method for communicating, planning, and executing a wide range of tasks, dubbed This&That. We achieve robot planning for general tasks by leveraging the power of video generative models trained on internet-scale data containing rich physical and semantic context. In this work, we tackle three fundamental challenges in video-based planning: 1) unambiguous task communication with simple human instructions, 2) controllable video generation that respects user intents, and 3) translating visual planning into robot actions. We propose language-gesture conditioning to generate videos, which is both simpler and clearer than existing language-only methods, especially in complex and uncertain environments. We then suggest a behavioral cloning design that seamlessly incorporates the video plans. This&That demonstrates state-of-the-art effectiveness in addressing the above three challenges, and justifies the use of video generation as an intermediate representation for generalizable task planning and execution. Project website: https://cfeng16.github.io/this-and-that/.

This&That: Taal-Gebarengestuurde Videogeneratie voor Robotplanning

This&That: Language-Gesture Controlled Video Generation for Robot Planning

Samenvatting

Support