Manipulación como en Simulación: Habilitando la Percepción Precisa de Geometría en Robots
Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots
September 2, 2025
Autores: Minghuan Liu, Zhengbang Zhu, Xiaoshen Han, Peng Hu, Haotong Lin, Xinyao Li, Jingxiao Chen, Jiafeng Xu, Yichu Yang, Yunfeng Lin, Xinghang Li, Yong Yu, Weinan Zhang, Tao Kong, Bingyi Kang
cs.AI
Resumen
La manipulación robótica moderna se basa principalmente en observaciones visuales en un espacio de color 2D para el aprendizaje de habilidades, pero sufre de una pobre generalización. En contraste, los humanos, que habitan en un mundo 3D, dependen más de propiedades físicas—como la distancia, el tamaño y la forma—que de la textura al interactuar con objetos. Dado que dicha información geométrica 3D puede obtenerse a partir de cámaras de profundidad ampliamente disponibles, parece factible dotar a los robots de capacidades perceptivas similares. Nuestro estudio piloto encontró que el uso de cámaras de profundidad para la manipulación es desafiante, principalmente debido a su precisión limitada y su susceptibilidad a diversos tipos de ruido. En este trabajo, proponemos los Modelos de Profundidad de Cámara (CDMs, por sus siglas en inglés) como un complemento simple para cámaras de profundidad de uso diario, que toman imágenes RGB y señales de profundidad en bruto como entrada y generan una profundidad métrica precisa y libre de ruido. Para lograrlo, desarrollamos un motor de datos neuronal que genera datos emparejados de alta calidad a partir de la simulación, modelando el patrón de ruido de una cámara de profundidad. Nuestros resultados muestran que los CDMs alcanzan una precisión en la predicción de profundidad casi a nivel de simulación, cerrando efectivamente la brecha entre simulación y realidad para tareas de manipulación. Notablemente, nuestros experimentos demuestran, por primera vez, que una política entrenada con datos de profundidad simulada en bruto, sin necesidad de añadir ruido o ajustes en el mundo real, se generaliza sin problemas a robots en el mundo real en dos tareas desafiantes de horizonte largo que involucran objetos articulados, reflectantes y delgados, con poca o ninguna degradación en el rendimiento. Esperamos que nuestros hallazgos inspiren futuras investigaciones en la utilización de datos de simulación e información 3D en políticas robóticas generales.
English
Modern robotic manipulation primarily relies on visual observations in a 2D
color space for skill learning but suffers from poor generalization. In
contrast, humans, living in a 3D world, depend more on physical properties-such
as distance, size, and shape-than on texture when interacting with objects.
Since such 3D geometric information can be acquired from widely available depth
cameras, it appears feasible to endow robots with similar perceptual
capabilities. Our pilot study found that using depth cameras for manipulation
is challenging, primarily due to their limited accuracy and susceptibility to
various types of noise. In this work, we propose Camera Depth Models (CDMs) as
a simple plugin on daily-use depth cameras, which take RGB images and raw depth
signals as input and output denoised, accurate metric depth. To achieve this,
we develop a neural data engine that generates high-quality paired data from
simulation by modeling a depth camera's noise pattern. Our results show that
CDMs achieve nearly simulation-level accuracy in depth prediction, effectively
bridging the sim-to-real gap for manipulation tasks. Notably, our experiments
demonstrate, for the first time, that a policy trained on raw simulated depth,
without the need for adding noise or real-world fine-tuning, generalizes
seamlessly to real-world robots on two challenging long-horizon tasks involving
articulated, reflective, and slender objects, with little to no performance
degradation. We hope our findings will inspire future research in utilizing
simulation data and 3D information in general robot policies.