RT-Sketch: Zielkonditioniertes Imitationslernen von handgezeichneten Skizzen
RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches
March 5, 2024
Autoren: Priya Sundaresan, Quan Vuong, Jiayuan Gu, Peng Xu, Ted Xiao, Sean Kirmani, Tianhe Yu, Michael Stark, Ajinkya Jain, Karol Hausman, Dorsa Sadigh, Jeannette Bohg, Stefan Schaal
cs.AI
Zusammenfassung
Natürliche Sprache und Bilder werden häufig als Zielrepräsentationen im Imitationslernen mit Zielen verwendet. Allerdings kann natürliche Sprache mehrdeutig sein und Bilder können übergenau sein. In dieser Arbeit schlagen wir handgezeichnete Skizzen als Modalität für die Zielspezifikation im visuellen Imitationslernen vor. Skizzen sind für Benutzer einfach bereitzustellen, ähnlich wie Sprache, aber sie können, ähnlich wie Bilder, einem nachgelagerten Richtlinienmodell helfen, räumlich bewusst zu sein und sogar über Bilder hinauszugehen, um aufgabenrelevante von aufgabenirrelevanten Objekten zu unterscheiden. Wir stellen RT-Sketch vor, eine zielkonditionierte Richtlinie für Manipulation, die eine handgezeichnete Skizze der gewünschten Szene als Eingabe erhält und Aktionen ausgibt. Wir trainieren RT-Sketch auf einem Datensatz von gepaarten Trajektorien und entsprechenden synthetisch generierten Zielskizzen. Wir evaluieren diesen Ansatz an sechs Manipulationsfähigkeiten, die Umgestaltungen von Objekten auf einer Gliederarbeitsplatte beinhalten. Experimentell stellen wir fest, dass RT-Sketch in einfachen Umgebungen auf ähnlichem Niveau wie bild- oder sprachkonditionierte Agenten agieren kann, während es eine größere Robustheit erreicht, wenn Sprachziele mehrdeutig sind oder visuelle Ablenkungen vorhanden sind. Darüber hinaus zeigen wir, dass RT-Sketch die Fähigkeit hat, Skizzen mit unterschiedlichen Spezifitätsgraden zu interpretieren und darauf zu reagieren, die von minimalen Strichzeichnungen bis hin zu detaillierten, farbigen Zeichnungen reichen. Für ergänzendes Material und Videos verweisen wir auf unsere Website: http://rt-sketch.github.io.
English
Natural language and images are commonly used as goal representations in
goal-conditioned imitation learning (IL). However, natural language can be
ambiguous and images can be over-specified. In this work, we propose hand-drawn
sketches as a modality for goal specification in visual imitation learning.
Sketches are easy for users to provide on the fly like language, but similar to
images they can also help a downstream policy to be spatially-aware and even go
beyond images to disambiguate task-relevant from task-irrelevant objects. We
present RT-Sketch, a goal-conditioned policy for manipulation that takes a
hand-drawn sketch of the desired scene as input, and outputs actions. We train
RT-Sketch on a dataset of paired trajectories and corresponding synthetically
generated goal sketches. We evaluate this approach on six manipulation skills
involving tabletop object rearrangements on an articulated countertop.
Experimentally we find that RT-Sketch is able to perform on a similar level to
image or language-conditioned agents in straightforward settings, while
achieving greater robustness when language goals are ambiguous or visual
distractors are present. Additionally, we show that RT-Sketch has the capacity
to interpret and act upon sketches with varied levels of specificity, ranging
from minimal line drawings to detailed, colored drawings. For supplementary
material and videos, please refer to our website: http://rt-sketch.github.io.