RT-Sketch: Aprendizaje por Imitación Condicionado por Objetivos a partir de Bocetos Dibujados a Mano
RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches
March 5, 2024
Autores: Priya Sundaresan, Quan Vuong, Jiayuan Gu, Peng Xu, Ted Xiao, Sean Kirmani, Tianhe Yu, Michael Stark, Ajinkya Jain, Karol Hausman, Dorsa Sadigh, Jeannette Bohg, Stefan Schaal
cs.AI
Resumen
El lenguaje natural y las imágenes se utilizan comúnmente como representaciones de objetivos en el aprendizaje por imitación condicionado por objetivos (IL). Sin embargo, el lenguaje natural puede ser ambiguo y las imágenes pueden estar sobreespecificadas. En este trabajo, proponemos los bocetos dibujados a mano como una modalidad para la especificación de objetivos en el aprendizaje por imitación visual. Los bocetos son fáciles de proporcionar por los usuarios sobre la marcha, como el lenguaje, pero, al igual que las imágenes, también pueden ayudar a una política descendente a ser espacialmente consciente e incluso ir más allá de las imágenes para desambiguar objetos relevantes para la tarea de aquellos que no lo son. Presentamos RT-Sketch, una política condicionada por objetivos para manipulación que toma como entrada un boceto dibujado a mano de la escena deseada y produce acciones como salida. Entrenamos RT-Sketch en un conjunto de datos de trayectorias emparejadas y bocetos de objetivos generados sintéticamente. Evaluamos este enfoque en seis habilidades de manipulación que involucran reordenamientos de objetos sobre una encimera articulada. Experimentalmente, encontramos que RT-Sketch es capaz de desempeñarse a un nivel similar a los agentes condicionados por imágenes o lenguaje en configuraciones directas, mientras logra una mayor robustez cuando los objetivos lingüísticos son ambiguos o hay distractores visuales presentes. Además, mostramos que RT-Sketch tiene la capacidad de interpretar y actuar sobre bocetos con diversos niveles de especificidad, que van desde dibujos lineales mínimos hasta dibujos detallados y coloreados. Para material complementario y videos, consulte nuestro sitio web: http://rt-sketch.github.io.
English
Natural language and images are commonly used as goal representations in
goal-conditioned imitation learning (IL). However, natural language can be
ambiguous and images can be over-specified. In this work, we propose hand-drawn
sketches as a modality for goal specification in visual imitation learning.
Sketches are easy for users to provide on the fly like language, but similar to
images they can also help a downstream policy to be spatially-aware and even go
beyond images to disambiguate task-relevant from task-irrelevant objects. We
present RT-Sketch, a goal-conditioned policy for manipulation that takes a
hand-drawn sketch of the desired scene as input, and outputs actions. We train
RT-Sketch on a dataset of paired trajectories and corresponding synthetically
generated goal sketches. We evaluate this approach on six manipulation skills
involving tabletop object rearrangements on an articulated countertop.
Experimentally we find that RT-Sketch is able to perform on a similar level to
image or language-conditioned agents in straightforward settings, while
achieving greater robustness when language goals are ambiguous or visual
distractors are present. Additionally, we show that RT-Sketch has the capacity
to interpret and act upon sketches with varied levels of specificity, ranging
from minimal line drawings to detailed, colored drawings. For supplementary
material and videos, please refer to our website: http://rt-sketch.github.io.