ChatPaper.aiChatPaper

Robot Ziet Robot Doen: Het Nabootsen van Gearticuleerde Objectmanipulatie met Monoculaire 4D Reconstructie

Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction

September 26, 2024
Auteurs: Justin Kerr, Chung Min Kim, Mingxuan Wu, Brent Yi, Qianqian Wang, Ken Goldberg, Angjoo Kanazawa
cs.AI

Samenvatting

Mensen kunnen leren om nieuwe objecten te manipuleren door eenvoudigweg anderen te observeren; het geven van robots de mogelijkheid om te leren van dergelijke demonstraties zou een natuurlijke interface mogelijk maken voor het specificeren van nieuwe gedragingen. Dit werk ontwikkelt Robot See Robot Do (RSRD), een methode voor het imiteren van gearticuleerde objectmanipulatie vanuit een enkele monoculaire RGB-menselijke demonstratie gegeven een enkele statische multi-view objectscan. We stellen eerst 4D Differentieerbare Deelmodellen (4D-DPM) voor, een methode voor het herstellen van 3D-deelbeweging vanuit een monoculaire video met differentieerbare rendering. Deze analyse-op-synthese benadering maakt gebruik van deelcentrische kenmerkvelden in een iteratieve optimalisatie die het gebruik van geometrische regularisatoren mogelijk maakt om 3D-bewegingen te herstellen vanuit slechts een enkele video. Gegeven deze 4D-reconstructie, bootst de robot objecttrajecten na door bimanuele arm bewegingen te plannen die de gedemonstreerde deelbeweging van het object veroorzaken. Door demonstraties voor te stellen als deelcentrische trajecten, richt RSRD zich op het repliceren van het beoogde gedrag van de demonstratie terwijl het rekening houdt met de eigen morfologische beperkingen van de robot, in plaats van te proberen de beweging van de hand te reproduceren. We evalueren de 3D-trackingnauwkeurigheid van 4D-DPM op grondwaarheid geannoteerde 3D-deeltrajecten en de fysieke uitvoeringsprestaties van RSRD op 9 objecten over 10 pogingen elk op een bimanuele YuMi-robot. Elke fase van RSRD behaalt een gemiddeld succespercentage van 87%, voor een totaal eind-tot-eind succespercentage van 60% over 90 pogingen. Opmerkelijk is dat dit wordt bereikt met alleen kenmerkvelden gedistilleerd uit grote voorgeleerde visiemodellen - zonder enige taakspecifieke training, fijnafstemming, datasetverzameling of annotatie. Projectpagina: https://robot-see-robot-do.github.io
English
Humans can learn to manipulate new objects by simply watching others; providing robots with the ability to learn from such demonstrations would enable a natural interface specifying new behaviors. This work develops Robot See Robot Do (RSRD), a method for imitating articulated object manipulation from a single monocular RGB human demonstration given a single static multi-view object scan. We first propose 4D Differentiable Part Models (4D-DPM), a method for recovering 3D part motion from a monocular video with differentiable rendering. This analysis-by-synthesis approach uses part-centric feature fields in an iterative optimization which enables the use of geometric regularizers to recover 3D motions from only a single video. Given this 4D reconstruction, the robot replicates object trajectories by planning bimanual arm motions that induce the demonstrated object part motion. By representing demonstrations as part-centric trajectories, RSRD focuses on replicating the demonstration's intended behavior while considering the robot's own morphological limits, rather than attempting to reproduce the hand's motion. We evaluate 4D-DPM's 3D tracking accuracy on ground truth annotated 3D part trajectories and RSRD's physical execution performance on 9 objects across 10 trials each on a bimanual YuMi robot. Each phase of RSRD achieves an average of 87% success rate, for a total end-to-end success rate of 60% across 90 trials. Notably, this is accomplished using only feature fields distilled from large pretrained vision models -- without any task-specific training, fine-tuning, dataset collection, or annotation. Project page: https://robot-see-robot-do.github.io

Summary

AI-Generated Summary

PDF92November 16, 2024