RoboTAP : Suivi de points arbitraires pour l'imitation visuelle en few-shot
RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation
August 30, 2023
Auteurs: Mel Vecerik, Carl Doersch, Yi Yang, Todor Davchev, Yusuf Aytar, Guangyao Zhou, Raia Hadsell, Lourdes Agapito, Jon Scholz
cs.AI
Résumé
Pour que les robots soient utiles en dehors des laboratoires et des usines spécialisées, nous avons besoin d'un moyen de leur enseigner rapidement de nouveaux comportements utiles. Les approches actuelles manquent soit de généralité pour intégrer de nouvelles tâches sans ingénierie spécifique, soit d'efficacité en termes de données pour le faire dans un délai permettant une utilisation pratique. Dans ce travail, nous explorons le suivi dense comme un vecteur de représentation pour permettre un apprentissage plus rapide et plus général à partir de démonstrations. Notre approche utilise des modèles Track-Any-Point (TAP) pour isoler le mouvement pertinent dans une démonstration, et paramétrer un contrôleur de bas niveau pour reproduire ce mouvement malgré les changements dans la configuration de la scène. Nous montrons que cela aboutit à des politiques robotiques robustes capables de résoudre des tâches complexes d'arrangement d'objets telles que l'appariement de formes, l'empilement, et même des tâches de suivi de trajectoire complètes comme l'application de colle et l'assemblage d'objets, le tout à partir de démonstrations pouvant être collectées en quelques minutes.
English
For robots to be useful outside labs and specialized factories we need a way
to teach them new useful behaviors quickly. Current approaches lack either the
generality to onboard new tasks without task-specific engineering, or else lack
the data-efficiency to do so in an amount of time that enables practical use.
In this work we explore dense tracking as a representational vehicle to allow
faster and more general learning from demonstration. Our approach utilizes
Track-Any-Point (TAP) models to isolate the relevant motion in a demonstration,
and parameterize a low-level controller to reproduce this motion across changes
in the scene configuration. We show this results in robust robot policies that
can solve complex object-arrangement tasks such as shape-matching, stacking,
and even full path-following tasks such as applying glue and sticking objects
together, all from demonstrations that can be collected in minutes.