Robot Voit Robot Faire : Imitation de la Manipulation d'Objets Articulés avec Reconstruction Monoculaire 4D
Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction
September 26, 2024
Auteurs: Justin Kerr, Chung Min Kim, Mingxuan Wu, Brent Yi, Qianqian Wang, Ken Goldberg, Angjoo Kanazawa
cs.AI
Résumé
Les humains peuvent apprendre à manipuler de nouveaux objets en observant simplement les autres ; donner aux robots la capacité d'apprendre de telles démonstrations permettrait une interface naturelle pour spécifier de nouveaux comportements. Ce travail développe Robot See Robot Do (RSRD), une méthode pour imiter la manipulation articulée d'objets à partir d'une seule démonstration humaine en RGB monoculaire, étant donné un seul balayage d'objet multi-vue statique. Nous proposons d'abord les Modèles de Parties Différentiables en 4D (4D-DPM), une méthode pour récupérer le mouvement des parties en 3D à partir d'une vidéo monoculaire avec un rendu différenciable. Cette approche d'analyse par synthèse utilise des champs de caractéristiques centrés sur les parties dans une optimisation itérative qui permet l'utilisation de régularisateurs géométriques pour récupérer les mouvements en 3D à partir d'une seule vidéo. Avec cette reconstruction en 4D, le robot reproduit les trajectoires des objets en planifiant des mouvements de bras bimanuels qui induisent le mouvement des parties de l'objet démontré. En représentant les démonstrations sous forme de trajectoires centrées sur les parties, RSRD se concentre sur la reproduction du comportement voulu de la démonstration tout en tenant compte des limites morphologiques du robot, plutôt que de tenter de reproduire le mouvement de la main. Nous évaluons la précision du suivi en 3D de 4D-DPM sur des trajectoires de parties en 3D annotées en vérité terrain et la performance d'exécution physique de RSRD sur 9 objets à travers 10 essais chacun sur un robot bimanuel YuMi. Chaque phase de RSRD atteint un taux de réussite moyen de 87 %, pour un taux de réussite total de bout en bout de 60 % sur 90 essais. Notamment, ceci est accompli en utilisant uniquement des champs de caractéristiques issus de grands modèles de vision pré-entraînés, sans aucun entraînement spécifique à la tâche, ajustement fin, collecte de données ou annotation. Page du projet : https://robot-see-robot-do.github.io
English
Humans can learn to manipulate new objects by simply watching others;
providing robots with the ability to learn from such demonstrations would
enable a natural interface specifying new behaviors. This work develops Robot
See Robot Do (RSRD), a method for imitating articulated object manipulation
from a single monocular RGB human demonstration given a single static
multi-view object scan. We first propose 4D Differentiable Part Models
(4D-DPM), a method for recovering 3D part motion from a monocular video with
differentiable rendering. This analysis-by-synthesis approach uses part-centric
feature fields in an iterative optimization which enables the use of geometric
regularizers to recover 3D motions from only a single video. Given this 4D
reconstruction, the robot replicates object trajectories by planning bimanual
arm motions that induce the demonstrated object part motion. By representing
demonstrations as part-centric trajectories, RSRD focuses on replicating the
demonstration's intended behavior while considering the robot's own
morphological limits, rather than attempting to reproduce the hand's motion. We
evaluate 4D-DPM's 3D tracking accuracy on ground truth annotated 3D part
trajectories and RSRD's physical execution performance on 9 objects across 10
trials each on a bimanual YuMi robot. Each phase of RSRD achieves an average of
87% success rate, for a total end-to-end success rate of 60% across 90 trials.
Notably, this is accomplished using only feature fields distilled from large
pretrained vision models -- without any task-specific training, fine-tuning,
dataset collection, or annotation. Project page:
https://robot-see-robot-do.github.ioSummary
AI-Generated Summary