RoboTAP: Отслеживание произвольных точек для визуального имитирования с малым количеством примеров
RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation
August 30, 2023
Авторы: Mel Vecerik, Carl Doersch, Yi Yang, Todor Davchev, Yusuf Aytar, Guangyao Zhou, Raia Hadsell, Lourdes Agapito, Jon Scholz
cs.AI
Аннотация
Для того чтобы роботы могли быть полезными за пределами лабораторий и специализированных заводов, нам необходим способ быстро обучать их новым полезным действиям. Современные подходы либо не обладают достаточной универсальностью для освоения новых задач без специфической инженерной подготовки, либо не обеспечивают достаточной эффективности использования данных, чтобы сделать это за время, позволяющее практическое применение. В данной работе мы исследуем плотное отслеживание как репрезентационный инструмент, позволяющий ускорить и сделать более универсальным обучение на основе демонстраций. Наш подход использует модели Track-Any-Point (TAP) для выделения релевантного движения в демонстрации и параметризации низкоуровневого контроллера для воспроизведения этого движения при изменении конфигурации сцены. Мы показываем, что это приводит к созданию устойчивых стратегий управления роботами, способных решать сложные задачи по упорядочиванию объектов, такие как сопоставление форм, укладка, а также задачи по полному следованию траектории, такие как нанесение клея и склеивание объектов, — всё это на основе демонстраций, которые могут быть собраны за считанные минуты.
English
For robots to be useful outside labs and specialized factories we need a way
to teach them new useful behaviors quickly. Current approaches lack either the
generality to onboard new tasks without task-specific engineering, or else lack
the data-efficiency to do so in an amount of time that enables practical use.
In this work we explore dense tracking as a representational vehicle to allow
faster and more general learning from demonstration. Our approach utilizes
Track-Any-Point (TAP) models to isolate the relevant motion in a demonstration,
and parameterize a low-level controller to reproduce this motion across changes
in the scene configuration. We show this results in robust robot policies that
can solve complex object-arrangement tasks such as shape-matching, stacking,
and even full path-following tasks such as applying glue and sticking objects
together, all from demonstrations that can be collected in minutes.