RT-Sketch: Обучение имитации с условиями цели из ручных эскизов.
RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches
March 5, 2024
Авторы: Priya Sundaresan, Quan Vuong, Jiayuan Gu, Peng Xu, Ted Xiao, Sean Kirmani, Tianhe Yu, Michael Stark, Ajinkya Jain, Karol Hausman, Dorsa Sadigh, Jeannette Bohg, Stefan Schaal
cs.AI
Аннотация
Естественный язык и изображения часто используются в качестве представлений целей в обучении имитации с условием цели (IL). Однако естественный язык может быть неоднозначным, а изображения могут быть избыточными. В данной работе мы предлагаем ручные наброски в качестве модальности для спецификации целей в обучении визуальной имитации. Наброски легко предоставлять пользователям на лету, как и язык, но, подобно изображениям, они также могут помочь последующей политике быть пространственно осведомленной и даже выходить за рамки изображений для разрешения задачи-связанных и задаче-несвязанных объектов. Мы представляем RT-Sketch, политику с условием цели для манипуляции, которая принимает ручной набросок желаемой сцены на входе и выдает действия. Мы обучаем RT-Sketch на наборе сопоставленных траекторий и соответствующих синтетически сгенерированных целевых набросков. Мы оцениваем этот подход на шести навыках манипуляции, включающих перестановки объектов на столе на артикулированной столешнице. Экспериментально мы обнаруживаем, что RT-Sketch способен действовать на сходном уровне с агентами, обученными на изображениях или языке, в прямолинейных ситуациях, при этом достигая большей устойчивости, когда языковые цели неоднозначны или визуальные отвлекающие объекты присутствуют. Кроме того, мы показываем, что RT-Sketch способен интерпретировать и действовать на наброски с различными уровнями специфичности, начиная от минимальных линейных набросков до детальных, цветных набросков. Дополнительные материалы и видео можно найти на нашем веб-сайте: http://rt-sketch.github.io.
English
Natural language and images are commonly used as goal representations in
goal-conditioned imitation learning (IL). However, natural language can be
ambiguous and images can be over-specified. In this work, we propose hand-drawn
sketches as a modality for goal specification in visual imitation learning.
Sketches are easy for users to provide on the fly like language, but similar to
images they can also help a downstream policy to be spatially-aware and even go
beyond images to disambiguate task-relevant from task-irrelevant objects. We
present RT-Sketch, a goal-conditioned policy for manipulation that takes a
hand-drawn sketch of the desired scene as input, and outputs actions. We train
RT-Sketch on a dataset of paired trajectories and corresponding synthetically
generated goal sketches. We evaluate this approach on six manipulation skills
involving tabletop object rearrangements on an articulated countertop.
Experimentally we find that RT-Sketch is able to perform on a similar level to
image or language-conditioned agents in straightforward settings, while
achieving greater robustness when language goals are ambiguous or visual
distractors are present. Additionally, we show that RT-Sketch has the capacity
to interpret and act upon sketches with varied levels of specificity, ranging
from minimal line drawings to detailed, colored drawings. For supplementary
material and videos, please refer to our website: http://rt-sketch.github.io.