Manipulación como en Simulación: Habilitando la Percepción Precisa de Geometría en Robots

Resumen

La manipulación robótica moderna se basa principalmente en observaciones visuales en un espacio de color 2D para el aprendizaje de habilidades, pero sufre de una pobre generalización. En contraste, los humanos, que habitan en un mundo 3D, dependen más de propiedades físicas—como la distancia, el tamaño y la forma—que de la textura al interactuar con objetos. Dado que dicha información geométrica 3D puede obtenerse a partir de cámaras de profundidad ampliamente disponibles, parece factible dotar a los robots de capacidades perceptivas similares. Nuestro estudio piloto encontró que el uso de cámaras de profundidad para la manipulación es desafiante, principalmente debido a su precisión limitada y su susceptibilidad a diversos tipos de ruido. En este trabajo, proponemos los Modelos de Profundidad de Cámara (CDMs, por sus siglas en inglés) como un complemento simple para cámaras de profundidad de uso diario, que toman imágenes RGB y señales de profundidad en bruto como entrada y generan una profundidad métrica precisa y libre de ruido. Para lograrlo, desarrollamos un motor de datos neuronal que genera datos emparejados de alta calidad a partir de la simulación, modelando el patrón de ruido de una cámara de profundidad. Nuestros resultados muestran que los CDMs alcanzan una precisión en la predicción de profundidad casi a nivel de simulación, cerrando efectivamente la brecha entre simulación y realidad para tareas de manipulación. Notablemente, nuestros experimentos demuestran, por primera vez, que una política entrenada con datos de profundidad simulada en bruto, sin necesidad de añadir ruido o ajustes en el mundo real, se generaliza sin problemas a robots en el mundo real en dos tareas desafiantes de horizonte largo que involucran objetos articulados, reflectantes y delgados, con poca o ninguna degradación en el rendimiento. Esperamos que nuestros hallazgos inspiren futuras investigaciones en la utilización de datos de simulación e información 3D en políticas robóticas generales.

English

Modern robotic manipulation primarily relies on visual observations in a 2D color space for skill learning but suffers from poor generalization. In contrast, humans, living in a 3D world, depend more on physical properties-such as distance, size, and shape-than on texture when interacting with objects. Since such 3D geometric information can be acquired from widely available depth cameras, it appears feasible to endow robots with similar perceptual capabilities. Our pilot study found that using depth cameras for manipulation is challenging, primarily due to their limited accuracy and susceptibility to various types of noise. In this work, we propose Camera Depth Models (CDMs) as a simple plugin on daily-use depth cameras, which take RGB images and raw depth signals as input and output denoised, accurate metric depth. To achieve this, we develop a neural data engine that generates high-quality paired data from simulation by modeling a depth camera's noise pattern. Our results show that CDMs achieve nearly simulation-level accuracy in depth prediction, effectively bridging the sim-to-real gap for manipulation tasks. Notably, our experiments demonstrate, for the first time, that a policy trained on raw simulated depth, without the need for adding noise or real-world fine-tuning, generalizes seamlessly to real-world robots on two challenging long-horizon tasks involving articulated, reflective, and slender objects, with little to no performance degradation. We hope our findings will inspire future research in utilizing simulation data and 3D information in general robot policies.

Manipulación como en Simulación: Habilitando la Percepción Precisa de Geometría en Robots

Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots

Resumen

Support