This&That: Generazione di Video Controllata da Linguaggio e Gestualità per la Pianificazione Robotica

Abstract

Proponiamo un metodo di apprendimento per robot che consente di comunicare, pianificare ed eseguire un'ampia gamma di compiti, denominato This&That. Raggiungiamo la pianificazione robotica per compiti generali sfruttando la potenza dei modelli generativi di video addestrati su dati di scala internet contenenti un ricco contesto fisico e semantico. In questo lavoro, affrontiamo tre sfide fondamentali nella pianificazione basata su video: 1) comunicazione inequivocabile dei compiti con semplici istruzioni umane, 2) generazione controllata di video che rispetti le intenzioni dell'utente, e 3) traduzione della pianificazione visiva in azioni robotiche. Proponiamo un condizionamento basato su linguaggio e gesti per generare video, che risulta sia più semplice che più chiaro rispetto ai metodi esistenti basati solo sul linguaggio, specialmente in ambienti complessi e incerti. Successivamente, suggeriamo un design di clonazione comportamentale che incorpora in modo fluido i piani video. This&That dimostra un'efficacia all'avanguardia nell'affrontare le tre sfide sopra menzionate e giustifica l'uso della generazione di video come rappresentazione intermedia per la pianificazione e l'esecuzione generalizzabile dei compiti. Sito web del progetto: https://cfeng16.github.io/this-and-that/.

English

We propose a robot learning method for communicating, planning, and executing a wide range of tasks, dubbed This&That. We achieve robot planning for general tasks by leveraging the power of video generative models trained on internet-scale data containing rich physical and semantic context. In this work, we tackle three fundamental challenges in video-based planning: 1) unambiguous task communication with simple human instructions, 2) controllable video generation that respects user intents, and 3) translating visual planning into robot actions. We propose language-gesture conditioning to generate videos, which is both simpler and clearer than existing language-only methods, especially in complex and uncertain environments. We then suggest a behavioral cloning design that seamlessly incorporates the video plans. This&That demonstrates state-of-the-art effectiveness in addressing the above three challenges, and justifies the use of video generation as an intermediate representation for generalizable task planning and execution. Project website: https://cfeng16.github.io/this-and-that/.

This&That: Generazione di Video Controllata da Linguaggio e Gestualità per la Pianificazione Robotica

This&That: Language-Gesture Controlled Video Generation for Robot Planning

Abstract

Support