ChatPaper.aiChatPaper

This&That: Generazione di Video Controllata da Linguaggio e Gestualità per la Pianificazione Robotica

This&That: Language-Gesture Controlled Video Generation for Robot Planning

July 8, 2024
Autori: Boyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park
cs.AI

Abstract

Proponiamo un metodo di apprendimento per robot che consente di comunicare, pianificare ed eseguire un'ampia gamma di compiti, denominato This&That. Raggiungiamo la pianificazione robotica per compiti generali sfruttando la potenza dei modelli generativi di video addestrati su dati di scala internet contenenti un ricco contesto fisico e semantico. In questo lavoro, affrontiamo tre sfide fondamentali nella pianificazione basata su video: 1) comunicazione inequivocabile dei compiti con semplici istruzioni umane, 2) generazione controllata di video che rispetti le intenzioni dell'utente, e 3) traduzione della pianificazione visiva in azioni robotiche. Proponiamo un condizionamento basato su linguaggio e gesti per generare video, che risulta sia più semplice che più chiaro rispetto ai metodi esistenti basati solo sul linguaggio, specialmente in ambienti complessi e incerti. Successivamente, suggeriamo un design di clonazione comportamentale che incorpora in modo fluido i piani video. This&That dimostra un'efficacia all'avanguardia nell'affrontare le tre sfide sopra menzionate e giustifica l'uso della generazione di video come rappresentazione intermedia per la pianificazione e l'esecuzione generalizzabile dei compiti. Sito web del progetto: https://cfeng16.github.io/this-and-that/.
English
We propose a robot learning method for communicating, planning, and executing a wide range of tasks, dubbed This&That. We achieve robot planning for general tasks by leveraging the power of video generative models trained on internet-scale data containing rich physical and semantic context. In this work, we tackle three fundamental challenges in video-based planning: 1) unambiguous task communication with simple human instructions, 2) controllable video generation that respects user intents, and 3) translating visual planning into robot actions. We propose language-gesture conditioning to generate videos, which is both simpler and clearer than existing language-only methods, especially in complex and uncertain environments. We then suggest a behavioral cloning design that seamlessly incorporates the video plans. This&That demonstrates state-of-the-art effectiveness in addressing the above three challenges, and justifies the use of video generation as an intermediate representation for generalizable task planning and execution. Project website: https://cfeng16.github.io/this-and-that/.
PDF41November 28, 2024