ChatPaper.aiChatPaper

Manipulatie als in Simulatie: Nauwkeurige Geometriewaarneming Mogelijk Maken in Robots

Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots

September 2, 2025
Auteurs: Minghuan Liu, Zhengbang Zhu, Xiaoshen Han, Peng Hu, Haotong Lin, Xinyao Li, Jingxiao Chen, Jiafeng Xu, Yichu Yang, Yunfeng Lin, Xinghang Li, Yong Yu, Weinan Zhang, Tao Kong, Bingyi Kang
cs.AI

Samenvatting

Moderne robotmanipulatie is voornamelijk afhankelijk van visuele waarnemingen in een 2D-kleurruimte voor het leren van vaardigheden, maar lijdt onder een slechte generalisatie. Daarentegen vertrouwen mensen, die in een 3D-wereld leven, meer op fysieke eigenschappen—zoals afstand, grootte en vorm—dan op textuur bij het interacteren met objecten. Aangezien dergelijke 3D-geometrische informatie kan worden verkregen met breed beschikbare dieptecamera's, lijkt het haalbaar om robots te voorzien van vergelijkbare perceptuele capaciteiten. Onze pilotstudie toonde aan dat het gebruik van dieptecamera's voor manipulatie uitdagend is, voornamelijk vanwege hun beperkte nauwkeurigheid en gevoeligheid voor verschillende soorten ruis. In dit werk stellen we Camera Depth Models (CDMs) voor als een eenvoudige plugin op alledaagse dieptecamera's, die RGB-beelden en ruwe dieptesignalen als invoer nemen en ontruisde, nauwkeurige metrische diepte als uitvoer geven. Om dit te bereiken, ontwikkelen we een neurale data-engine die hoogwaardige gepaarde data genereert uit simulatie door het ruispatroon van een dieptecamera te modelleren. Onze resultaten laten zien dat CDMs een bijna simulatie-niveau van nauwkeurigheid bereiken in dieptevoorspelling, waardoor de kloof tussen simulatie en realiteit effectief wordt overbrugd voor manipulatietaken. Opmerkelijk is dat onze experimenten voor het eerst aantonen dat een beleid dat is getraind op ruwe gesimuleerde diepte, zonder de noodzaak van het toevoegen van ruis of fine-tuning in de echte wereld, naadloos generaliseert naar echte robots bij twee uitdagende langetermijntaken met gearticuleerde, reflecterende en slanke objecten, met weinig tot geen prestatieverlies. We hopen dat onze bevindingen toekomstig onderzoek zullen inspireren in het gebruik van simulatiegegevens en 3D-informatie in algemene robotbeleidsstrategieën.
English
Modern robotic manipulation primarily relies on visual observations in a 2D color space for skill learning but suffers from poor generalization. In contrast, humans, living in a 3D world, depend more on physical properties-such as distance, size, and shape-than on texture when interacting with objects. Since such 3D geometric information can be acquired from widely available depth cameras, it appears feasible to endow robots with similar perceptual capabilities. Our pilot study found that using depth cameras for manipulation is challenging, primarily due to their limited accuracy and susceptibility to various types of noise. In this work, we propose Camera Depth Models (CDMs) as a simple plugin on daily-use depth cameras, which take RGB images and raw depth signals as input and output denoised, accurate metric depth. To achieve this, we develop a neural data engine that generates high-quality paired data from simulation by modeling a depth camera's noise pattern. Our results show that CDMs achieve nearly simulation-level accuracy in depth prediction, effectively bridging the sim-to-real gap for manipulation tasks. Notably, our experiments demonstrate, for the first time, that a policy trained on raw simulated depth, without the need for adding noise or real-world fine-tuning, generalizes seamlessly to real-world robots on two challenging long-horizon tasks involving articulated, reflective, and slender objects, with little to no performance degradation. We hope our findings will inspire future research in utilizing simulation data and 3D information in general robot policies.
PDF92September 4, 2025