RoboTAP: 任意のポイントを追跡するためのFew-Shot視覚模倣
RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation
August 30, 2023
著者: Mel Vecerik, Carl Doersch, Yi Yang, Todor Davchev, Yusuf Aytar, Guangyao Zhou, Raia Hadsell, Lourdes Agapito, Jon Scholz
cs.AI
要旨
ロボットが研究室や専門的な工場の外で有用であるためには、新しい有用な行動を迅速に教える方法が必要です。現在のアプローチでは、タスク固有のエンジニアリングなしに新しいタスクを導入するための汎用性が欠けているか、あるいは実用的な使用を可能にする時間内でそれを実行するためのデータ効率が欠けています。本研究では、デモンストレーションからより迅速かつ汎用的に学習するための表現手段として、密なトラッキングを探求します。私たちのアプローチでは、Track-Any-Point (TAP) モデルを利用してデモンストレーション内の関連する動きを分離し、シーン構成の変化にわたってこの動きを再現するための低レベルコントローラをパラメータ化します。これにより、形状マッチング、積み上げ、接着剤の適用や物体の接着といった完全な経路追従タスクなど、複雑な物体配置タスクを解決する堅牢なロボットポリシーが得られることを示します。これらのデモンストレーションは、数分で収集することが可能です。
English
For robots to be useful outside labs and specialized factories we need a way
to teach them new useful behaviors quickly. Current approaches lack either the
generality to onboard new tasks without task-specific engineering, or else lack
the data-efficiency to do so in an amount of time that enables practical use.
In this work we explore dense tracking as a representational vehicle to allow
faster and more general learning from demonstration. Our approach utilizes
Track-Any-Point (TAP) models to isolate the relevant motion in a demonstration,
and parameterize a low-level controller to reproduce this motion across changes
in the scene configuration. We show this results in robust robot policies that
can solve complex object-arrangement tasks such as shape-matching, stacking,
and even full path-following tasks such as applying glue and sticking objects
together, all from demonstrations that can be collected in minutes.