RT-Sketch: Apprendimento per Imitazione Condizionato da Obiettivi a partire da Schizzi Disegnati a Mano
RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches
March 5, 2024
Autori: Priya Sundaresan, Quan Vuong, Jiayuan Gu, Peng Xu, Ted Xiao, Sean Kirmani, Tianhe Yu, Michael Stark, Ajinkya Jain, Karol Hausman, Dorsa Sadigh, Jeannette Bohg, Stefan Schaal
cs.AI
Abstract
Il linguaggio naturale e le immagini sono comunemente utilizzati come rappresentazioni degli obiettivi nell'apprendimento per imitazione condizionato da obiettivi (IL). Tuttavia, il linguaggio naturale può essere ambiguo e le immagini possono essere eccessivamente specifiche. In questo lavoro, proponiamo gli schizzi disegnati a mano come modalità per la specificazione degli obiettivi nell'apprendimento per imitazione visiva. Gli schizzi sono facili da fornire da parte degli utenti in modo immediato, come il linguaggio, ma, similmente alle immagini, possono anche aiutare una politica a valle a essere spazialmente consapevole e persino andare oltre le immagini per distinguere gli oggetti rilevanti per il compito da quelli irrilevanti. Presentiamo RT-Sketch, una politica condizionata da obiettivi per la manipolazione che prende come input uno schizzo disegnato a mano della scena desiderata e restituisce azioni. Addestriamo RT-Sketch su un dataset di traiettorie accoppiate e corrispondenti schizzi di obiettivi generati sinteticamente. Valutiamo questo approccio su sei abilità di manipolazione che coinvolgono riarrangiamenti di oggetti su un piano di lavoro articolato. Sperimentalmente, troviamo che RT-Sketch è in grado di performare a un livello simile agli agenti condizionati da immagini o linguaggio in contesti semplici, mentre raggiunge una maggiore robustezza quando gli obiettivi linguistici sono ambigui o sono presenti distrattori visivi. Inoltre, dimostriamo che RT-Sketch ha la capacità di interpretare e agire su schizzi con vari livelli di specificità, che vanno da disegni a linee minimali a disegni dettagliati e colorati. Per materiale supplementare e video, si prega di consultare il nostro sito web: http://rt-sketch.github.io.
English
Natural language and images are commonly used as goal representations in
goal-conditioned imitation learning (IL). However, natural language can be
ambiguous and images can be over-specified. In this work, we propose hand-drawn
sketches as a modality for goal specification in visual imitation learning.
Sketches are easy for users to provide on the fly like language, but similar to
images they can also help a downstream policy to be spatially-aware and even go
beyond images to disambiguate task-relevant from task-irrelevant objects. We
present RT-Sketch, a goal-conditioned policy for manipulation that takes a
hand-drawn sketch of the desired scene as input, and outputs actions. We train
RT-Sketch on a dataset of paired trajectories and corresponding synthetically
generated goal sketches. We evaluate this approach on six manipulation skills
involving tabletop object rearrangements on an articulated countertop.
Experimentally we find that RT-Sketch is able to perform on a similar level to
image or language-conditioned agents in straightforward settings, while
achieving greater robustness when language goals are ambiguous or visual
distractors are present. Additionally, we show that RT-Sketch has the capacity
to interpret and act upon sketches with varied levels of specificity, ranging
from minimal line drawings to detailed, colored drawings. For supplementary
material and videos, please refer to our website: http://rt-sketch.github.io.