Robô Vê, Robô Faz: Imitando a Manipulação de Objetos Articulados com Reconstrução Monocular 4D
Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction
September 26, 2024
Autores: Justin Kerr, Chung Min Kim, Mingxuan Wu, Brent Yi, Qianqian Wang, Ken Goldberg, Angjoo Kanazawa
cs.AI
Resumo
Os humanos podem aprender a manipular novos objetos simplesmente observando outros; fornecer aos robôs a capacidade de aprender com tais demonstrações permitiria uma interface natural para especificar novos comportamentos. Este trabalho desenvolve o Robot See Robot Do (RSRD), um método para imitar a manipulação articulada de objetos a partir de uma única demonstração humana RGB monocromática, dada uma única varredura estática de objetos multi-visão. Primeiramente, propomos os Modelos de Partes Diferenciáveis 4D (4D-DPM), um método para recuperar o movimento de partes 3D de um vídeo monocromático com renderização diferenciável. Esta abordagem de análise por síntese utiliza campos de características centradas em partes em uma otimização iterativa que permite o uso de regularizadores geométricos para recuperar movimentos 3D a partir de apenas um vídeo. Com base nessa reconstrução 4D, o robô replica trajetórias de objetos planejando movimentos de braços bimanuais que induzem o movimento da parte do objeto demonstrado. Ao representar as demonstrações como trajetórias centradas em partes, o RSRD foca em replicar o comportamento pretendido na demonstração, considerando os limites morfológicos do robô, em vez de tentar reproduzir o movimento da mão. Avaliamos a precisão de rastreamento 3D do 4D-DPM em trajetórias de partes 3D anotadas com a verdade de solo e o desempenho de execução física do RSRD em 9 objetos em 10 tentativas cada em um robô bimanual YuMi. Cada fase do RSRD alcança uma taxa média de sucesso de 87%, resultando em uma taxa total de sucesso de ponta a ponta de 60% em 90 tentativas. Notavelmente, isso é alcançado apenas com campos de características destilados de grandes modelos de visão pré-treinados - sem treinamento específico da tarefa, ajuste fino, coleta de dados ou anotação. Página do projeto: https://robot-see-robot-do.github.io
English
Humans can learn to manipulate new objects by simply watching others;
providing robots with the ability to learn from such demonstrations would
enable a natural interface specifying new behaviors. This work develops Robot
See Robot Do (RSRD), a method for imitating articulated object manipulation
from a single monocular RGB human demonstration given a single static
multi-view object scan. We first propose 4D Differentiable Part Models
(4D-DPM), a method for recovering 3D part motion from a monocular video with
differentiable rendering. This analysis-by-synthesis approach uses part-centric
feature fields in an iterative optimization which enables the use of geometric
regularizers to recover 3D motions from only a single video. Given this 4D
reconstruction, the robot replicates object trajectories by planning bimanual
arm motions that induce the demonstrated object part motion. By representing
demonstrations as part-centric trajectories, RSRD focuses on replicating the
demonstration's intended behavior while considering the robot's own
morphological limits, rather than attempting to reproduce the hand's motion. We
evaluate 4D-DPM's 3D tracking accuracy on ground truth annotated 3D part
trajectories and RSRD's physical execution performance on 9 objects across 10
trials each on a bimanual YuMi robot. Each phase of RSRD achieves an average of
87% success rate, for a total end-to-end success rate of 60% across 90 trials.
Notably, this is accomplished using only feature fields distilled from large
pretrained vision models -- without any task-specific training, fine-tuning,
dataset collection, or annotation. Project page:
https://robot-see-robot-do.github.ioSummary
AI-Generated Summary