Robot Ve, Robot Hace: Imitando la Manipulación de Objetos Articulados con Reconstrucción Monocular 4D

Resumen

Los humanos pueden aprender a manipular nuevos objetos simplemente observando a otros; proporcionar a los robots la capacidad de aprender a partir de tales demostraciones permitiría una interfaz natural para especificar nuevos comportamientos. Este trabajo desarrolla Robot See Robot Do (RSRD), un método para imitar la manipulación articulada de objetos a partir de una única demostración humana RGB monocromática estática de múltiples vistas. Primero proponemos Modelos de Partes Diferenciables en 4D (4D-DPM), un método para recuperar el movimiento de partes en 3D a partir de un video monocromático con renderizado diferenciable. Este enfoque de análisis por síntesis utiliza campos de características centradas en partes en una optimización iterativa que permite el uso de regularizadores geométricos para recuperar movimientos en 3D a partir de un único video. Dada esta reconstrucción en 4D, el robot replica las trayectorias de los objetos planificando movimientos de brazos bimanuales que inducen el movimiento de partes del objeto demostrado. Al representar las demostraciones como trayectorias centradas en partes, RSRD se enfoca en replicar el comportamiento previsto en la demostración considerando los límites morfológicos del robot, en lugar de intentar reproducir el movimiento de la mano. Evaluamos la precisión del seguimiento en 3D de 4D-DPM en trayectorias de partes en 3D anotadas como verdad de terreno y el rendimiento de ejecución física de RSRD en 9 objetos a lo largo de 10 intentos cada uno en un robot bimanual YuMi. Cada fase de RSRD logra una tasa de éxito promedio del 87%, para una tasa de éxito total de extremo a extremo del 60% a lo largo de 90 intentos. Destacadamente, esto se logra utilizando solo campos de características destilados de modelos de visión preentrenados a gran escala, sin ningún entrenamiento específico de tarea, ajuste fino, colección de datos o anotación. Página del proyecto: https://robot-see-robot-do.github.io

English

Humans can learn to manipulate new objects by simply watching others; providing robots with the ability to learn from such demonstrations would enable a natural interface specifying new behaviors. This work develops Robot See Robot Do (RSRD), a method for imitating articulated object manipulation from a single monocular RGB human demonstration given a single static multi-view object scan. We first propose 4D Differentiable Part Models (4D-DPM), a method for recovering 3D part motion from a monocular video with differentiable rendering. This analysis-by-synthesis approach uses part-centric feature fields in an iterative optimization which enables the use of geometric regularizers to recover 3D motions from only a single video. Given this 4D reconstruction, the robot replicates object trajectories by planning bimanual arm motions that induce the demonstrated object part motion. By representing demonstrations as part-centric trajectories, RSRD focuses on replicating the demonstration's intended behavior while considering the robot's own morphological limits, rather than attempting to reproduce the hand's motion. We evaluate 4D-DPM's 3D tracking accuracy on ground truth annotated 3D part trajectories and RSRD's physical execution performance on 9 objects across 10 trials each on a bimanual YuMi robot. Each phase of RSRD achieves an average of 87% success rate, for a total end-to-end success rate of 60% across 90 trials. Notably, this is accomplished using only feature fields distilled from large pretrained vision models -- without any task-specific training, fine-tuning, dataset collection, or annotation. Project page: https://robot-see-robot-do.github.io

Robot Ve, Robot Hace: Imitando la Manipulación de Objetos Articulados con Reconstrucción Monocular 4D

Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction

Resumen

Support