Roboter sieht, Roboter tut: Imitation von manipulierten Objekten mit monokularer 4D-Rekonstruktion
Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction
September 26, 2024
Autoren: Justin Kerr, Chung Min Kim, Mingxuan Wu, Brent Yi, Qianqian Wang, Ken Goldberg, Angjoo Kanazawa
cs.AI
Zusammenfassung
Menschen können lernen, neue Objekte zu manipulieren, indem sie einfach anderen zuschauen; wenn Robotern die Fähigkeit gegeben wird, von solchen Demonstrationen zu lernen, würde dies eine natürliche Schnittstelle ermöglichen, um neue Verhaltensweisen festzulegen. Diese Arbeit entwickelt Robot See Robot Do (RSRD), eine Methode zur Imitation von artikulierter Objektmanipulation aus einer einzelnen monokularen RGB-Menschendemonstration unter Verwendung eines einzigen statischen Multi-View-Objektscans. Zunächst schlagen wir 4D Differentiable Part Models (4D-DPM) vor, eine Methode zur Wiederherstellung von 3D-Teilbewegungen aus einem monokularen Video mit differenzierbarer Darstellung. Dieser Analyse-durch-Synthese-Ansatz verwendet teilzentrierte Merkmalsfelder in einer iterativen Optimierung, die die Verwendung geometrischer Regularisierer ermöglicht, um 3D-Bewegungen nur aus einem einzigen Video wiederherzustellen. Basierend auf dieser 4D-Rekonstruktion repliziert der Roboter Objekttrajektorien, indem er bimanuelle Armbewegungen plant, die die demonstrierte Teilbewegung des Objekts induzieren. Indem Demonstrationen als teilzentrierte Trajektorien dargestellt werden, konzentriert sich RSRD darauf, das beabsichtigte Verhalten der Demonstration zu replizieren, während die eigenen morphologischen Grenzen des Roboters berücksichtigt werden, anstatt zu versuchen, die Bewegung der Hand zu reproduzieren. Wir bewerten die 3D-Tracking-Genauigkeit von 4D-DPM anhand von Ground-Truth-annotierten 3D-Teiltrajektorien und die physische Ausführungsleistung von RSRD an 9 Objekten in jeweils 10 Versuchen an einem bimanuellen YuMi-Roboter. Jede Phase von RSRD erreicht eine durchschnittliche Erfolgsrate von 87 %, was eine Gesamterfolgsrate von 60 % über 90 Versuche ergibt. Bemerkenswerterweise wird dies nur unter Verwendung von Merkmalsfeldern erreicht, die aus großen vorab trainierten Vision-Modellen extrahiert wurden - ohne spezifisches Training, Feinabstimmung, Datensammlung oder Annotation. Projektseite: https://robot-see-robot-do.github.io
English
Humans can learn to manipulate new objects by simply watching others;
providing robots with the ability to learn from such demonstrations would
enable a natural interface specifying new behaviors. This work develops Robot
See Robot Do (RSRD), a method for imitating articulated object manipulation
from a single monocular RGB human demonstration given a single static
multi-view object scan. We first propose 4D Differentiable Part Models
(4D-DPM), a method for recovering 3D part motion from a monocular video with
differentiable rendering. This analysis-by-synthesis approach uses part-centric
feature fields in an iterative optimization which enables the use of geometric
regularizers to recover 3D motions from only a single video. Given this 4D
reconstruction, the robot replicates object trajectories by planning bimanual
arm motions that induce the demonstrated object part motion. By representing
demonstrations as part-centric trajectories, RSRD focuses on replicating the
demonstration's intended behavior while considering the robot's own
morphological limits, rather than attempting to reproduce the hand's motion. We
evaluate 4D-DPM's 3D tracking accuracy on ground truth annotated 3D part
trajectories and RSRD's physical execution performance on 9 objects across 10
trials each on a bimanual YuMi robot. Each phase of RSRD achieves an average of
87% success rate, for a total end-to-end success rate of 60% across 90 trials.
Notably, this is accomplished using only feature fields distilled from large
pretrained vision models -- without any task-specific training, fine-tuning,
dataset collection, or annotation. Project page:
https://robot-see-robot-do.github.ioSummary
AI-Generated Summary