Manipolazione come Simulazione: Abilitare una Percezione Geometrica Precisa nei Robot
Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots
September 2, 2025
Autori: Minghuan Liu, Zhengbang Zhu, Xiaoshen Han, Peng Hu, Haotong Lin, Xinyao Li, Jingxiao Chen, Jiafeng Xu, Yichu Yang, Yunfeng Lin, Xinghang Li, Yong Yu, Weinan Zhang, Tao Kong, Bingyi Kang
cs.AI
Abstract
La manipolazione robotica moderna si basa principalmente su osservazioni visive in uno spazio colore 2D per l'apprendimento delle abilità, ma soffre di una scarsa generalizzazione. Al contrario, gli esseri umani, che vivono in un mondo 3D, dipendono più dalle proprietà fisiche—come distanza, dimensione e forma—che dalla texture quando interagiscono con gli oggetti. Poiché tali informazioni geometriche 3D possono essere acquisite da telecamere di profondità ampiamente disponibili, sembra fattibile dotare i robot di capacità percettive simili. Il nostro studio pilota ha rilevato che l'uso di telecamere di profondità per la manipolazione è impegnativo, principalmente a causa della loro limitata accuratezza e della suscettibilità a vari tipi di rumore. In questo lavoro, proponiamo i Modelli di Profondità da Telecamera (Camera Depth Models, CDMs) come un semplice plugin per telecamere di profondità di uso quotidiano, che prendono immagini RGB e segnali di profondità grezzi come input e restituiscono una profondità metrica accurata e priva di rumore. Per raggiungere questo obiettivo, sviluppiamo un motore di dati neurali che genera dati accoppiati di alta qualità dalla simulazione modellando il pattern di rumore di una telecamera di profondità. I nostri risultati mostrano che i CDMs raggiungono un'accuratezza nella previsione della profondità quasi a livello di simulazione, colmando efficacemente il divario sim-to-real per i compiti di manipolazione. In particolare, i nostri esperimenti dimostrano, per la prima volta, che una politica addestrata su dati di profondità simulati grezzi, senza la necessità di aggiungere rumore o di ottimizzazione nel mondo reale, si generalizza senza soluzione di continuità ai robot reali in due impegnativi compiti a lungo termine che coinvolgono oggetti articolati, riflettenti e sottili, con un degrado delle prestazioni minimo o nullo. Speriamo che i nostri risultati ispirino future ricerche sull'utilizzo di dati di simulazione e informazioni 3D nelle politiche generali dei robot.
English
Modern robotic manipulation primarily relies on visual observations in a 2D
color space for skill learning but suffers from poor generalization. In
contrast, humans, living in a 3D world, depend more on physical properties-such
as distance, size, and shape-than on texture when interacting with objects.
Since such 3D geometric information can be acquired from widely available depth
cameras, it appears feasible to endow robots with similar perceptual
capabilities. Our pilot study found that using depth cameras for manipulation
is challenging, primarily due to their limited accuracy and susceptibility to
various types of noise. In this work, we propose Camera Depth Models (CDMs) as
a simple plugin on daily-use depth cameras, which take RGB images and raw depth
signals as input and output denoised, accurate metric depth. To achieve this,
we develop a neural data engine that generates high-quality paired data from
simulation by modeling a depth camera's noise pattern. Our results show that
CDMs achieve nearly simulation-level accuracy in depth prediction, effectively
bridging the sim-to-real gap for manipulation tasks. Notably, our experiments
demonstrate, for the first time, that a policy trained on raw simulated depth,
without the need for adding noise or real-world fine-tuning, generalizes
seamlessly to real-world robots on two challenging long-horizon tasks involving
articulated, reflective, and slender objects, with little to no performance
degradation. We hope our findings will inspire future research in utilizing
simulation data and 3D information in general robot policies.