ChatPaper.aiChatPaper

Manipulation wie in der Simulation: Ermöglichung einer präzisen Geometrie-Wahrnehmung in Robotern

Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots

September 2, 2025
papers.authors: Minghuan Liu, Zhengbang Zhu, Xiaoshen Han, Peng Hu, Haotong Lin, Xinyao Li, Jingxiao Chen, Jiafeng Xu, Yichu Yang, Yunfeng Lin, Xinghang Li, Yong Yu, Weinan Zhang, Tao Kong, Bingyi Kang
cs.AI

papers.abstract

Die moderne robotergestützte Manipulation stützt sich hauptsächlich auf visuelle Beobachtungen in einem 2D-Farbraum für das Erlernen von Fähigkeiten, leidet jedoch unter einer schlechten Generalisierung. Im Gegensatz dazu verlassen sich Menschen, die in einer 3D-Welt leben, bei der Interaktion mit Objekten stärker auf physikalische Eigenschaften – wie Entfernung, Größe und Form – als auf Texturen. Da solche 3D-geometrischen Informationen von weit verbreiteten Tiefenkameras erfasst werden können, erscheint es machbar, Robotern ähnliche Wahrnehmungsfähigkeiten zu verleihen. Unsere Pilotstudie ergab, dass die Verwendung von Tiefenkameras für Manipulationsaufgaben herausfordernd ist, hauptsächlich aufgrund ihrer begrenzten Genauigkeit und Anfälligkeit für verschiedene Arten von Rauschen. In dieser Arbeit schlagen wir Camera Depth Models (CDMs) als einfache Erweiterung für alltägliche Tiefenkameras vor, die RGB-Bilder und Rohdaten der Tiefensignale als Eingabe verwenden und entrauschte, metrisch genaue Tiefeninformationen ausgeben. Um dies zu erreichen, entwickeln wir eine neuronale Datenengine, die hochwertige gepaarte Daten aus der Simulation generiert, indem sie das Rauschmuster einer Tiefenkamera modelliert. Unsere Ergebnisse zeigen, dass CDMs eine nahezu simulationsgenaue Tiefenvorhersage erreichen und damit effektiv die Lücke zwischen Simulation und Realität für Manipulationsaufgaben schließen. Bemerkenswerterweise demonstrieren unsere Experimente erstmals, dass eine Strategie, die auf rohen simulierten Tiefendaten trainiert wurde, ohne die Notwendigkeit von Rauschen oder Feinabstimmung in der realen Welt, nahtlos auf reale Roboter bei zwei anspruchsvollen Langzeitaufgaben mit artikulierten, reflektierenden und schlanken Objekten übertragbar ist, mit wenig bis keiner Leistungsverschlechterung. Wir hoffen, dass unsere Erkenntnisse zukünftige Forschungen zur Nutzung von Simulationsdaten und 3D-Informationen in allgemeinen Roboterstrategien inspirieren werden.
English
Modern robotic manipulation primarily relies on visual observations in a 2D color space for skill learning but suffers from poor generalization. In contrast, humans, living in a 3D world, depend more on physical properties-such as distance, size, and shape-than on texture when interacting with objects. Since such 3D geometric information can be acquired from widely available depth cameras, it appears feasible to endow robots with similar perceptual capabilities. Our pilot study found that using depth cameras for manipulation is challenging, primarily due to their limited accuracy and susceptibility to various types of noise. In this work, we propose Camera Depth Models (CDMs) as a simple plugin on daily-use depth cameras, which take RGB images and raw depth signals as input and output denoised, accurate metric depth. To achieve this, we develop a neural data engine that generates high-quality paired data from simulation by modeling a depth camera's noise pattern. Our results show that CDMs achieve nearly simulation-level accuracy in depth prediction, effectively bridging the sim-to-real gap for manipulation tasks. Notably, our experiments demonstrate, for the first time, that a policy trained on raw simulated depth, without the need for adding noise or real-world fine-tuning, generalizes seamlessly to real-world robots on two challenging long-horizon tasks involving articulated, reflective, and slender objects, with little to no performance degradation. We hope our findings will inspire future research in utilizing simulation data and 3D information in general robot policies.
PDF41September 4, 2025