RT-Sketch: 손그림 스케치를 활용한 목표 조건부 모방 학습
RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches
March 5, 2024
저자: Priya Sundaresan, Quan Vuong, Jiayuan Gu, Peng Xu, Ted Xiao, Sean Kirmani, Tianhe Yu, Michael Stark, Ajinkya Jain, Karol Hausman, Dorsa Sadigh, Jeannette Bohg, Stefan Schaal
cs.AI
초록
자연어와 이미지는 목표 조건부 모방 학습(IL)에서 일반적으로 사용되는 목표 표현 방식입니다. 그러나 자연어는 모호할 수 있고, 이미지는 지나치게 구체적일 수 있습니다. 본 연구에서는 시각적 모방 학습에서 목표 명세를 위한 수기 스케치를 제안합니다. 스케치는 사용자가 언어처럼 즉석에서 제공하기 쉽지만, 이미지와 유사하게 하위 정책이 공간적 인식을 갖도록 도울 수 있으며, 심지어 이미지를 넘어 작업 관련 객체와 무관한 객체를 구별하는 데 도움을 줄 수 있습니다. 우리는 원하는 장면의 수기 스케치를 입력으로 받아 동작을 출력하는 조작 작업용 목표 조건부 정책인 RT-Sketch를 제시합니다. RT-Sketch는 합성적으로 생성된 목표 스케치와 짝을 이루는 궤적 데이터셋으로 학습되었습니다. 우리는 이 접근법을 조립식 카운터탑 위의 테이블탑 물체 재배치와 관련된 여섯 가지 조작 기술에 대해 평가했습니다. 실험 결과, RT-Sketch는 직관적인 설정에서 이미지나 언어 조건부 에이전트와 유사한 성능을 보이면서도, 언어 목표가 모호하거나 시각적 방해 요소가 있는 경우 더 큰 견고성을 달성할 수 있음을 확인했습니다. 또한, RT-Sketch는 최소한의 선화부터 상세하고 채색된 그림까지 다양한 수준의 구체성을 가진 스케치를 해석하고 실행할 수 있는 능력을 보여줍니다. 보충 자료와 비디오는 저희 웹사이트(http://rt-sketch.github.io)를 참조해 주세요.
English
Natural language and images are commonly used as goal representations in
goal-conditioned imitation learning (IL). However, natural language can be
ambiguous and images can be over-specified. In this work, we propose hand-drawn
sketches as a modality for goal specification in visual imitation learning.
Sketches are easy for users to provide on the fly like language, but similar to
images they can also help a downstream policy to be spatially-aware and even go
beyond images to disambiguate task-relevant from task-irrelevant objects. We
present RT-Sketch, a goal-conditioned policy for manipulation that takes a
hand-drawn sketch of the desired scene as input, and outputs actions. We train
RT-Sketch on a dataset of paired trajectories and corresponding synthetically
generated goal sketches. We evaluate this approach on six manipulation skills
involving tabletop object rearrangements on an articulated countertop.
Experimentally we find that RT-Sketch is able to perform on a similar level to
image or language-conditioned agents in straightforward settings, while
achieving greater robustness when language goals are ambiguous or visual
distractors are present. Additionally, we show that RT-Sketch has the capacity
to interpret and act upon sketches with varied levels of specificity, ranging
from minimal line drawings to detailed, colored drawings. For supplementary
material and videos, please refer to our website: http://rt-sketch.github.io.