Manipulation comme dans la Simulation : Permettre une Perception Géométrique Précise chez les Robots
Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots
September 2, 2025
papers.authors: Minghuan Liu, Zhengbang Zhu, Xiaoshen Han, Peng Hu, Haotong Lin, Xinyao Li, Jingxiao Chen, Jiafeng Xu, Yichu Yang, Yunfeng Lin, Xinghang Li, Yong Yu, Weinan Zhang, Tao Kong, Bingyi Kang
cs.AI
papers.abstract
La manipulation robotique moderne repose principalement sur des observations visuelles dans un espace de couleurs 2D pour l'apprentissage des compétences, mais souffre d'une mauvaise généralisation. En revanche, les humains, évoluant dans un monde en 3D, dépendent davantage des propriétés physiques - telles que la distance, la taille et la forme - que de la texture lorsqu'ils interagissent avec des objets. Étant donné que ces informations géométriques 3D peuvent être acquises à partir de caméras de profondeur largement disponibles, il semble réalisable de doter les robots de capacités perceptives similaires. Notre étude pilote a révélé que l'utilisation de caméras de profondeur pour la manipulation est difficile, principalement en raison de leur précision limitée et de leur sensibilité à divers types de bruit. Dans ce travail, nous proposons les Modèles de Profondeur de Caméra (CDMs) comme un simple module complémentaire sur les caméras de profondeur d'usage quotidien, qui prennent des images RGB et des signaux de profondeur bruts en entrée et produisent une profondeur métrique débruîtée et précise. Pour y parvenir, nous développons un moteur de données neuronales qui génère des données appariées de haute qualité à partir de la simulation en modélisant le modèle de bruit d'une caméra de profondeur. Nos résultats montrent que les CDMs atteignent une précision de prédiction de profondeur presque au niveau de la simulation, comblant efficacement l'écart entre la simulation et la réalité pour les tâches de manipulation. Notamment, nos expériences démontrent, pour la première fois, qu'une politique entraînée sur des données de profondeur simulées brutes, sans nécessité d'ajouter du bruit ou de réaliser un ajustement fin dans le monde réel, se généralise de manière fluide aux robots réels sur deux tâches complexes à long terme impliquant des objets articulés, réfléchissants et minces, avec peu ou pas de dégradation des performances. Nous espérons que nos découvertes inspireront de futures recherches sur l'utilisation des données de simulation et des informations 3D dans les politiques robotiques générales.
English
Modern robotic manipulation primarily relies on visual observations in a 2D
color space for skill learning but suffers from poor generalization. In
contrast, humans, living in a 3D world, depend more on physical properties-such
as distance, size, and shape-than on texture when interacting with objects.
Since such 3D geometric information can be acquired from widely available depth
cameras, it appears feasible to endow robots with similar perceptual
capabilities. Our pilot study found that using depth cameras for manipulation
is challenging, primarily due to their limited accuracy and susceptibility to
various types of noise. In this work, we propose Camera Depth Models (CDMs) as
a simple plugin on daily-use depth cameras, which take RGB images and raw depth
signals as input and output denoised, accurate metric depth. To achieve this,
we develop a neural data engine that generates high-quality paired data from
simulation by modeling a depth camera's noise pattern. Our results show that
CDMs achieve nearly simulation-level accuracy in depth prediction, effectively
bridging the sim-to-real gap for manipulation tasks. Notably, our experiments
demonstrate, for the first time, that a policy trained on raw simulated depth,
without the need for adding noise or real-world fine-tuning, generalizes
seamlessly to real-world robots on two challenging long-horizon tasks involving
articulated, reflective, and slender objects, with little to no performance
degradation. We hope our findings will inspire future research in utilizing
simulation data and 3D information in general robot policies.