RT-Sketch: Aprendizado de Imitação Condicionado por Objetivo a partir de Esboços Desenhados à Mão
RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches
March 5, 2024
Autores: Priya Sundaresan, Quan Vuong, Jiayuan Gu, Peng Xu, Ted Xiao, Sean Kirmani, Tianhe Yu, Michael Stark, Ajinkya Jain, Karol Hausman, Dorsa Sadigh, Jeannette Bohg, Stefan Schaal
cs.AI
Resumo
A linguagem natural e as imagens são comumente utilizadas como representações de objetivos no aprendizado por imitação condicionado a objetivos (IL). No entanto, a linguagem natural pode ser ambígua e as imagens podem ser superespecificadas. Neste trabalho, propomos esboços desenhados à mão como uma modalidade para especificação de objetivos no aprendizado por imitação visual. Esboços são fáceis para os usuários fornecerem rapidamente, assim como a linguagem, mas, semelhantes às imagens, também podem ajudar uma política subsequente a ser espacialmente consciente e até ir além das imagens para desambiguar objetos relevantes da tarefa daqueles irrelevantes. Apresentamos o RT-Sketch, uma política condicionada a objetivos para manipulação que recebe como entrada um esboço desenhado à mão da cena desejada e gera ações como saída. Treinamos o RT-Sketch em um conjunto de dados de trajetórias pareadas e esboços de objetivos gerados sinteticamente correspondentes. Avaliamos essa abordagem em seis habilidades de manipulação envolvendo rearranjos de objetos em uma bancada articulada. Experimentalmente, descobrimos que o RT-Sketch é capaz de desempenhar em um nível semelhante aos agentes condicionados por imagem ou linguagem em cenários diretos, enquanto alcança maior robustez quando os objetivos de linguagem são ambíguos ou há distratores visuais presentes. Além disso, mostramos que o RT-Sketch tem a capacidade de interpretar e agir com base em esboços com diferentes níveis de especificidade, variando de desenhos mínimos com linhas a desenhos detalhados e coloridos. Para material suplementar e vídeos, consulte nosso site: http://rt-sketch.github.io.
English
Natural language and images are commonly used as goal representations in
goal-conditioned imitation learning (IL). However, natural language can be
ambiguous and images can be over-specified. In this work, we propose hand-drawn
sketches as a modality for goal specification in visual imitation learning.
Sketches are easy for users to provide on the fly like language, but similar to
images they can also help a downstream policy to be spatially-aware and even go
beyond images to disambiguate task-relevant from task-irrelevant objects. We
present RT-Sketch, a goal-conditioned policy for manipulation that takes a
hand-drawn sketch of the desired scene as input, and outputs actions. We train
RT-Sketch on a dataset of paired trajectories and corresponding synthetically
generated goal sketches. We evaluate this approach on six manipulation skills
involving tabletop object rearrangements on an articulated countertop.
Experimentally we find that RT-Sketch is able to perform on a similar level to
image or language-conditioned agents in straightforward settings, while
achieving greater robustness when language goals are ambiguous or visual
distractors are present. Additionally, we show that RT-Sketch has the capacity
to interpret and act upon sketches with varied levels of specificity, ranging
from minimal line drawings to detailed, colored drawings. For supplementary
material and videos, please refer to our website: http://rt-sketch.github.io.