RT-Sketch: Apprendimento per Imitazione Condizionato da Obiettivi a partire da Schizzi Disegnati a Mano

Abstract

Il linguaggio naturale e le immagini sono comunemente utilizzati come rappresentazioni degli obiettivi nell'apprendimento per imitazione condizionato da obiettivi (IL). Tuttavia, il linguaggio naturale può essere ambiguo e le immagini possono essere eccessivamente specifiche. In questo lavoro, proponiamo gli schizzi disegnati a mano come modalità per la specificazione degli obiettivi nell'apprendimento per imitazione visiva. Gli schizzi sono facili da fornire da parte degli utenti in modo immediato, come il linguaggio, ma, similmente alle immagini, possono anche aiutare una politica a valle a essere spazialmente consapevole e persino andare oltre le immagini per distinguere gli oggetti rilevanti per il compito da quelli irrilevanti. Presentiamo RT-Sketch, una politica condizionata da obiettivi per la manipolazione che prende come input uno schizzo disegnato a mano della scena desiderata e restituisce azioni. Addestriamo RT-Sketch su un dataset di traiettorie accoppiate e corrispondenti schizzi di obiettivi generati sinteticamente. Valutiamo questo approccio su sei abilità di manipolazione che coinvolgono riarrangiamenti di oggetti su un piano di lavoro articolato. Sperimentalmente, troviamo che RT-Sketch è in grado di performare a un livello simile agli agenti condizionati da immagini o linguaggio in contesti semplici, mentre raggiunge una maggiore robustezza quando gli obiettivi linguistici sono ambigui o sono presenti distrattori visivi. Inoltre, dimostriamo che RT-Sketch ha la capacità di interpretare e agire su schizzi con vari livelli di specificità, che vanno da disegni a linee minimali a disegni dettagliati e colorati. Per materiale supplementare e video, si prega di consultare il nostro sito web: http://rt-sketch.github.io.

English

Natural language and images are commonly used as goal representations in goal-conditioned imitation learning (IL). However, natural language can be ambiguous and images can be over-specified. In this work, we propose hand-drawn sketches as a modality for goal specification in visual imitation learning. Sketches are easy for users to provide on the fly like language, but similar to images they can also help a downstream policy to be spatially-aware and even go beyond images to disambiguate task-relevant from task-irrelevant objects. We present RT-Sketch, a goal-conditioned policy for manipulation that takes a hand-drawn sketch of the desired scene as input, and outputs actions. We train RT-Sketch on a dataset of paired trajectories and corresponding synthetically generated goal sketches. We evaluate this approach on six manipulation skills involving tabletop object rearrangements on an articulated countertop. Experimentally we find that RT-Sketch is able to perform on a similar level to image or language-conditioned agents in straightforward settings, while achieving greater robustness when language goals are ambiguous or visual distractors are present. Additionally, we show that RT-Sketch has the capacity to interpret and act upon sketches with varied levels of specificity, ranging from minimal line drawings to detailed, colored drawings. For supplementary material and videos, please refer to our website: http://rt-sketch.github.io.

RT-Sketch: Apprendimento per Imitazione Condizionato da Obiettivi a partire da Schizzi Disegnati a Mano

RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches

Abstract

Support