RoboTAP: Tracciamento di Punti Arbitrari per l'Imitazione Visiva Few-Shot

Abstract

Affinché i robot siano utili al di fuori dei laboratori e delle fabbriche specializzate, abbiamo bisogno di un modo per insegnare loro nuovi comportamenti utili in modo rapido. Gli approcci attuali mancano o della generalità necessaria per introdurre nuovi compiti senza un'ingegneria specifica per il compito, o dell'efficienza dei dati per farlo in un tempo che consenta un uso pratico. In questo lavoro esploriamo il tracciamento denso come veicolo rappresentativo per consentire un apprendimento più rapido e più generale dalla dimostrazione. Il nostro approccio utilizza modelli Track-Any-Point (TAP) per isolare il movimento rilevante in una dimostrazione e parametrizzare un controller di basso livello per riprodurre questo movimento attraverso cambiamenti nella configurazione della scena. Dimostriamo che ciò si traduce in politiche robotiche robuste in grado di risolvere compiti complessi di disposizione degli oggetti come l'abbinamento di forme, l'impilamento e persino compiti di seguire percorsi completi come l'applicazione di colla e l'incollaggio di oggetti, tutto partendo da dimostrazioni che possono essere raccolte in pochi minuti.

English

For robots to be useful outside labs and specialized factories we need a way to teach them new useful behaviors quickly. Current approaches lack either the generality to onboard new tasks without task-specific engineering, or else lack the data-efficiency to do so in an amount of time that enables practical use. In this work we explore dense tracking as a representational vehicle to allow faster and more general learning from demonstration. Our approach utilizes Track-Any-Point (TAP) models to isolate the relevant motion in a demonstration, and parameterize a low-level controller to reproduce this motion across changes in the scene configuration. We show this results in robust robot policies that can solve complex object-arrangement tasks such as shape-matching, stacking, and even full path-following tasks such as applying glue and sticking objects together, all from demonstrations that can be collected in minutes.

RoboTAP: Tracciamento di Punti Arbitrari per l'Imitazione Visiva Few-Shot

RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation

Abstract

Support