RT-Sketch : Apprentissage par imitation conditionné par objectif à partir de croquis dessinés à la main
RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches
March 5, 2024
Auteurs: Priya Sundaresan, Quan Vuong, Jiayuan Gu, Peng Xu, Ted Xiao, Sean Kirmani, Tianhe Yu, Michael Stark, Ajinkya Jain, Karol Hausman, Dorsa Sadigh, Jeannette Bohg, Stefan Schaal
cs.AI
Résumé
Le langage naturel et les images sont couramment utilisés comme représentations d'objectifs dans l'apprentissage par imitation conditionné par un objectif (IL). Cependant, le langage naturel peut être ambigu et les images peuvent être trop spécifiques. Dans ce travail, nous proposons les croquis dessinés à la main comme modalité pour la spécification d'objectifs dans l'apprentissage par imitation visuelle. Les croquis sont faciles à fournir par les utilisateurs à la volée, comme le langage, mais, à l'instar des images, ils peuvent également aider une politique en aval à être spatialement consciente et même aller au-delà des images pour lever les ambiguïtés entre les objets pertinents et non pertinents pour la tâche. Nous présentons RT-Sketch, une politique conditionnée par un objectif pour la manipulation qui prend en entrée un croquis dessiné à la main de la scène souhaitée et produit des actions en sortie. Nous entraînons RT-Sketch sur un ensemble de données de trajectoires appariées et de croquis d'objectifs générés de manière synthétique. Nous évaluons cette approche sur six compétences de manipulation impliquant des réarrangements d'objets sur une surface de travail articulée. Expérimentalement, nous constatons que RT-Sketch est capable de performer à un niveau similaire à celui des agents conditionnés par des images ou du langage dans des contextes simples, tout en atteignant une plus grande robustesse lorsque les objectifs langagiers sont ambigus ou que des distracteurs visuels sont présents. De plus, nous montrons que RT-Sketch a la capacité d'interpréter et d'agir sur des croquis avec des niveaux de spécificité variés, allant de dessins minimalistes à des dessins détaillés et colorés. Pour le matériel supplémentaire et les vidéos, veuillez consulter notre site web : http://rt-sketch.github.io.
English
Natural language and images are commonly used as goal representations in
goal-conditioned imitation learning (IL). However, natural language can be
ambiguous and images can be over-specified. In this work, we propose hand-drawn
sketches as a modality for goal specification in visual imitation learning.
Sketches are easy for users to provide on the fly like language, but similar to
images they can also help a downstream policy to be spatially-aware and even go
beyond images to disambiguate task-relevant from task-irrelevant objects. We
present RT-Sketch, a goal-conditioned policy for manipulation that takes a
hand-drawn sketch of the desired scene as input, and outputs actions. We train
RT-Sketch on a dataset of paired trajectories and corresponding synthetically
generated goal sketches. We evaluate this approach on six manipulation skills
involving tabletop object rearrangements on an articulated countertop.
Experimentally we find that RT-Sketch is able to perform on a similar level to
image or language-conditioned agents in straightforward settings, while
achieving greater robustness when language goals are ambiguous or visual
distractors are present. Additionally, we show that RT-Sketch has the capacity
to interpret and act upon sketches with varied levels of specificity, ranging
from minimal line drawings to detailed, colored drawings. For supplementary
material and videos, please refer to our website: http://rt-sketch.github.io.