RoboTAP: Rastreamento de Pontos Arbitrários para Imitação Visual com Poucos Exemplos
RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation
August 30, 2023
Autores: Mel Vecerik, Carl Doersch, Yi Yang, Todor Davchev, Yusuf Aytar, Guangyao Zhou, Raia Hadsell, Lourdes Agapito, Jon Scholz
cs.AI
Resumo
Para que os robôs sejam úteis fora de laboratórios e fábricas especializadas, precisamos de uma maneira de ensinar-lhes novos comportamentos úteis rapidamente. As abordagens atuais carecem da generalidade necessária para incorporar novas tarefas sem engenharia específica para cada tarefa, ou então não possuem a eficiência de dados necessária para fazê-lo em um período de tempo que permita o uso prático. Neste trabalho, exploramos o rastreamento denso como um veículo representacional para permitir um aprendizado mais rápido e mais geral a partir de demonstrações. Nossa abordagem utiliza modelos Track-Any-Point (TAP) para isolar o movimento relevante em uma demonstração e parametrizar um controlador de baixo nível para reproduzir esse movimento em diferentes configurações de cena. Mostramos que isso resulta em políticas robustas para robôs que podem resolver tarefas complexas de organização de objetos, como correspondência de formas, empilhamento, e até mesmo tarefas completas de seguimento de trajetória, como aplicar cola e unir objetos, tudo a partir de demonstrações que podem ser coletadas em minutos.
English
For robots to be useful outside labs and specialized factories we need a way
to teach them new useful behaviors quickly. Current approaches lack either the
generality to onboard new tasks without task-specific engineering, or else lack
the data-efficiency to do so in an amount of time that enables practical use.
In this work we explore dense tracking as a representational vehicle to allow
faster and more general learning from demonstration. Our approach utilizes
Track-Any-Point (TAP) models to isolate the relevant motion in a demonstration,
and parameterize a low-level controller to reproduce this motion across changes
in the scene configuration. We show this results in robust robot policies that
can solve complex object-arrangement tasks such as shape-matching, stacking,
and even full path-following tasks such as applying glue and sticking objects
together, all from demonstrations that can be collected in minutes.