Robot Ve, Robot Hace: Imitando la Manipulación de Objetos Articulados con Reconstrucción Monocular 4D
Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction
September 26, 2024
Autores: Justin Kerr, Chung Min Kim, Mingxuan Wu, Brent Yi, Qianqian Wang, Ken Goldberg, Angjoo Kanazawa
cs.AI
Resumen
Los humanos pueden aprender a manipular nuevos objetos simplemente observando a otros; proporcionar a los robots la capacidad de aprender a partir de tales demostraciones permitiría una interfaz natural para especificar nuevos comportamientos. Este trabajo desarrolla Robot See Robot Do (RSRD), un método para imitar la manipulación articulada de objetos a partir de una única demostración humana RGB monocromática estática de múltiples vistas. Primero proponemos Modelos de Partes Diferenciables en 4D (4D-DPM), un método para recuperar el movimiento de partes en 3D a partir de un video monocromático con renderizado diferenciable. Este enfoque de análisis por síntesis utiliza campos de características centradas en partes en una optimización iterativa que permite el uso de regularizadores geométricos para recuperar movimientos en 3D a partir de un único video. Dada esta reconstrucción en 4D, el robot replica las trayectorias de los objetos planificando movimientos de brazos bimanuales que inducen el movimiento de partes del objeto demostrado. Al representar las demostraciones como trayectorias centradas en partes, RSRD se enfoca en replicar el comportamiento previsto en la demostración considerando los límites morfológicos del robot, en lugar de intentar reproducir el movimiento de la mano. Evaluamos la precisión del seguimiento en 3D de 4D-DPM en trayectorias de partes en 3D anotadas como verdad de terreno y el rendimiento de ejecución física de RSRD en 9 objetos a lo largo de 10 intentos cada uno en un robot bimanual YuMi. Cada fase de RSRD logra una tasa de éxito promedio del 87%, para una tasa de éxito total de extremo a extremo del 60% a lo largo de 90 intentos. Destacadamente, esto se logra utilizando solo campos de características destilados de modelos de visión preentrenados a gran escala, sin ningún entrenamiento específico de tarea, ajuste fino, colección de datos o anotación. Página del proyecto: https://robot-see-robot-do.github.io
English
Humans can learn to manipulate new objects by simply watching others;
providing robots with the ability to learn from such demonstrations would
enable a natural interface specifying new behaviors. This work develops Robot
See Robot Do (RSRD), a method for imitating articulated object manipulation
from a single monocular RGB human demonstration given a single static
multi-view object scan. We first propose 4D Differentiable Part Models
(4D-DPM), a method for recovering 3D part motion from a monocular video with
differentiable rendering. This analysis-by-synthesis approach uses part-centric
feature fields in an iterative optimization which enables the use of geometric
regularizers to recover 3D motions from only a single video. Given this 4D
reconstruction, the robot replicates object trajectories by planning bimanual
arm motions that induce the demonstrated object part motion. By representing
demonstrations as part-centric trajectories, RSRD focuses on replicating the
demonstration's intended behavior while considering the robot's own
morphological limits, rather than attempting to reproduce the hand's motion. We
evaluate 4D-DPM's 3D tracking accuracy on ground truth annotated 3D part
trajectories and RSRD's physical execution performance on 9 objects across 10
trials each on a bimanual YuMi robot. Each phase of RSRD achieves an average of
87% success rate, for a total end-to-end success rate of 60% across 90 trials.
Notably, this is accomplished using only feature fields distilled from large
pretrained vision models -- without any task-specific training, fine-tuning,
dataset collection, or annotation. Project page:
https://robot-see-robot-do.github.ioSummary
AI-Generated Summary