ChatPaper.aiChatPaper

RoboTAP: Rastreamento de Pontos Arbitrários para Imitação Visual com Poucos Exemplos

RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation

August 30, 2023
Autores: Mel Vecerik, Carl Doersch, Yi Yang, Todor Davchev, Yusuf Aytar, Guangyao Zhou, Raia Hadsell, Lourdes Agapito, Jon Scholz
cs.AI

Resumo

Para que os robôs sejam úteis fora de laboratórios e fábricas especializadas, precisamos de uma maneira de ensinar-lhes novos comportamentos úteis rapidamente. As abordagens atuais carecem da generalidade necessária para incorporar novas tarefas sem engenharia específica para cada tarefa, ou então não possuem a eficiência de dados necessária para fazê-lo em um período de tempo que permita o uso prático. Neste trabalho, exploramos o rastreamento denso como um veículo representacional para permitir um aprendizado mais rápido e mais geral a partir de demonstrações. Nossa abordagem utiliza modelos Track-Any-Point (TAP) para isolar o movimento relevante em uma demonstração e parametrizar um controlador de baixo nível para reproduzir esse movimento em diferentes configurações de cena. Mostramos que isso resulta em políticas robustas para robôs que podem resolver tarefas complexas de organização de objetos, como correspondência de formas, empilhamento, e até mesmo tarefas completas de seguimento de trajetória, como aplicar cola e unir objetos, tudo a partir de demonstrações que podem ser coletadas em minutos.
English
For robots to be useful outside labs and specialized factories we need a way to teach them new useful behaviors quickly. Current approaches lack either the generality to onboard new tasks without task-specific engineering, or else lack the data-efficiency to do so in an amount of time that enables practical use. In this work we explore dense tracking as a representational vehicle to allow faster and more general learning from demonstration. Our approach utilizes Track-Any-Point (TAP) models to isolate the relevant motion in a demonstration, and parameterize a low-level controller to reproduce this motion across changes in the scene configuration. We show this results in robust robot policies that can solve complex object-arrangement tasks such as shape-matching, stacking, and even full path-following tasks such as applying glue and sticking objects together, all from demonstrations that can be collected in minutes.
PDF121February 8, 2026