RT-Sketch: Doelgericht Imitatieleren op Basis van Handgetekende Schetsen

Samenvatting

Natuurlijke taal en afbeeldingen worden vaak gebruikt als doelrepresentaties in doelgericht imitatie leren (IL). Echter, natuurlijke taal kan ambigu zijn en afbeeldingen kunnen overgespecificeerd zijn. In dit werk stellen we handgetekende schetsen voor als een modaliteit voor doelspecificatie in visueel imitatie leren. Schetsen zijn gemakkelijk voor gebruikers om ter plekke te leveren, net als taal, maar vergelijkbaar met afbeeldingen kunnen ze ook helpen om een downstream beleid ruimtelijk bewust te maken en zelfs verder te gaan dan afbeeldingen om taakrelevante objecten te onderscheiden van taakirrelevante objecten. We presenteren RT-Sketch, een doelgericht beleid voor manipulatie dat een handgetekende schets van de gewenste scène als invoer neemt en acties uitvoert. We trainen RT-Sketch op een dataset van gepaarde trajecten en corresponderende synthetisch gegenereerde doelschetsen. We evalueren deze aanpak op zes manipulatievaardigheden die betrekking hebben op het herschikken van objecten op een tafelblad op een gearticuleerd aanrecht. Experimenteel vinden we dat RT-Sketch in staat is om op een vergelijkbaar niveau te presteren als agents die op afbeeldingen of taal zijn gebaseerd in eenvoudige situaties, terwijl het grotere robuustheid bereikt wanneer taaldoelen ambigu zijn of visuele afleiders aanwezig zijn. Daarnaast tonen we aan dat RT-Sketch de capaciteit heeft om schetsen met verschillende niveaus van specificiteit te interpreteren en erop te reageren, variërend van minimale lijntekeningen tot gedetailleerde, gekleurde tekeningen. Voor aanvullend materiaal en video's verwijzen we naar onze website: http://rt-sketch.github.io.

English

Natural language and images are commonly used as goal representations in goal-conditioned imitation learning (IL). However, natural language can be ambiguous and images can be over-specified. In this work, we propose hand-drawn sketches as a modality for goal specification in visual imitation learning. Sketches are easy for users to provide on the fly like language, but similar to images they can also help a downstream policy to be spatially-aware and even go beyond images to disambiguate task-relevant from task-irrelevant objects. We present RT-Sketch, a goal-conditioned policy for manipulation that takes a hand-drawn sketch of the desired scene as input, and outputs actions. We train RT-Sketch on a dataset of paired trajectories and corresponding synthetically generated goal sketches. We evaluate this approach on six manipulation skills involving tabletop object rearrangements on an articulated countertop. Experimentally we find that RT-Sketch is able to perform on a similar level to image or language-conditioned agents in straightforward settings, while achieving greater robustness when language goals are ambiguous or visual distractors are present. Additionally, we show that RT-Sketch has the capacity to interpret and act upon sketches with varied levels of specificity, ranging from minimal line drawings to detailed, colored drawings. For supplementary material and videos, please refer to our website: http://rt-sketch.github.io.

RT-Sketch: Doelgericht Imitatieleren op Basis van Handgetekende Schetsen

RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches

Samenvatting

Support