RoboTAP: Verfolgung beliebiger Punkte für Few-Shot-Visual-Imitation
RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation
August 30, 2023
Autoren: Mel Vecerik, Carl Doersch, Yi Yang, Todor Davchev, Yusuf Aytar, Guangyao Zhou, Raia Hadsell, Lourdes Agapito, Jon Scholz
cs.AI
Zusammenfassung
Damit Roboter außerhalb von Laboren und spezialisierten Fabriken nützlich sein können, benötigen wir eine Methode, um ihnen schnell neue nützliche Verhaltensweisen beizubringen. Aktuelle Ansätze mangelt es entweder an der Allgemeingültigkeit, um neue Aufgaben ohne aufgabenspezifische Anpassungen zu übernehmen, oder an der Dateneffizienz, um dies in einem praktisch nutzbaren Zeitrahmen zu erreichen. In dieser Arbeit untersuchen wir dichtes Tracking als Repräsentationsvehikel, um schnelleres und allgemeineres Lernen aus Demonstrationen zu ermöglichen. Unser Ansatz nutzt Track-Any-Point (TAP)-Modelle, um die relevante Bewegung in einer Demonstration zu isolieren und einen Low-Level-Controller zu parametrisieren, der diese Bewegung über Änderungen in der Szenenkonfiguration hinweg reproduziert. Wir zeigen, dass dies zu robusten Roboterstrategien führt, die komplexe Objektanordnungsaufgaben wie Formabgleich, Stapeln und sogar vollständige Pfadfolgeaufgaben wie das Auftragen von Kleber und das Zusammenfügen von Objekten lösen können, alles aus Demonstrationen, die in Minuten gesammelt werden können.
English
For robots to be useful outside labs and specialized factories we need a way
to teach them new useful behaviors quickly. Current approaches lack either the
generality to onboard new tasks without task-specific engineering, or else lack
the data-efficiency to do so in an amount of time that enables practical use.
In this work we explore dense tracking as a representational vehicle to allow
faster and more general learning from demonstration. Our approach utilizes
Track-Any-Point (TAP) models to isolate the relevant motion in a demonstration,
and parameterize a low-level controller to reproduce this motion across changes
in the scene configuration. We show this results in robust robot policies that
can solve complex object-arrangement tasks such as shape-matching, stacking,
and even full path-following tasks such as applying glue and sticking objects
together, all from demonstrations that can be collected in minutes.