Robot Vede Robot Fa: Imitazione della Manipolazione di Oggetti Articolati con Ricostruzione Monoculare 4D
Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction
September 26, 2024
Autori: Justin Kerr, Chung Min Kim, Mingxuan Wu, Brent Yi, Qianqian Wang, Ken Goldberg, Angjoo Kanazawa
cs.AI
Abstract
Gli esseri umani possono imparare a manipolare nuovi oggetti semplicemente osservando gli altri; fornire ai robot la capacità di apprendere da tali dimostrazioni consentirebbe un'interfaccia naturale per specificare nuovi comportamenti. Questo lavoro sviluppa Robot See Robot Do (RSRD), un metodo per imitare la manipolazione articolata degli oggetti da una singola dimostrazione umana RGB monoculare statica multi-view. Proponiamo innanzitutto i Modelli Differenziabili delle Parti 4D (4D-DPM), un metodo per recuperare il movimento delle parti in 3D da un video monoculare con rendering differenziabile. Questo approccio di analisi per sintesi utilizza campi di caratteristiche centrati sulle parti in un'ottimizzazione iterativa che consente l'uso di regolarizzatori geometrici per recuperare i movimenti in 3D da un solo video. Dato questo ricostruzione 4D, il robot replica le traiettorie degli oggetti pianificando i movimenti dei bracci bimanuali che inducono il movimento delle parti dell'oggetto dimostrato. Rappresentando le dimostrazioni come traiettorie centrate sulle parti, RSRD si concentra sulla replicazione del comportamento desiderato della dimostrazione considerando i limiti morfologici del robot, piuttosto che cercare di riprodurre il movimento della mano. Valutiamo l'accuratezza del tracciamento in 3D di 4D-DPM sulle traiettorie delle parti 3D annotate come verità di riferimento e le prestazioni di esecuzione fisica di RSRD su 9 oggetti in 10 prove ciascuno su un robot YuMi bimanuale. Ogni fase di RSRD raggiunge un tasso di successo medio dell'87%, per un tasso di successo totale end-to-end del 60% su 90 prove. È importante notare che ciò è realizzato utilizzando solo campi di caratteristiche distillati da grandi modelli di visione preaddestrati - senza alcun addestramento specifico per compiti, raffinamento, raccolta di dati o annotazioni. Pagina del progetto: https://robot-see-robot-do.github.io
English
Humans can learn to manipulate new objects by simply watching others;
providing robots with the ability to learn from such demonstrations would
enable a natural interface specifying new behaviors. This work develops Robot
See Robot Do (RSRD), a method for imitating articulated object manipulation
from a single monocular RGB human demonstration given a single static
multi-view object scan. We first propose 4D Differentiable Part Models
(4D-DPM), a method for recovering 3D part motion from a monocular video with
differentiable rendering. This analysis-by-synthesis approach uses part-centric
feature fields in an iterative optimization which enables the use of geometric
regularizers to recover 3D motions from only a single video. Given this 4D
reconstruction, the robot replicates object trajectories by planning bimanual
arm motions that induce the demonstrated object part motion. By representing
demonstrations as part-centric trajectories, RSRD focuses on replicating the
demonstration's intended behavior while considering the robot's own
morphological limits, rather than attempting to reproduce the hand's motion. We
evaluate 4D-DPM's 3D tracking accuracy on ground truth annotated 3D part
trajectories and RSRD's physical execution performance on 9 objects across 10
trials each on a bimanual YuMi robot. Each phase of RSRD achieves an average of
87% success rate, for a total end-to-end success rate of 60% across 90 trials.
Notably, this is accomplished using only feature fields distilled from large
pretrained vision models -- without any task-specific training, fine-tuning,
dataset collection, or annotation. Project page:
https://robot-see-robot-do.github.ioSummary
AI-Generated Summary