Gemaskerd Dieptemodel voor Ruimtelijk Waarneming
Masked Depth Modeling for Spatial Perception
January 25, 2026
Auteurs: Bin Tan, Changjiang Sun, Xiage Qin, Hanat Adai, Zelin Fu, Tianxiang Zhou, Han Zhang, Yinghao Xu, Xing Zhu, Yujun Shen, Nan Xue
cs.AI
Samenvatting
Ruimtelijke visuele waarneming is een fundamentele vereiste in fysieke toepassingen zoals autonoom rijden en robotmanipulatie, gedreven door de noodzaak om te interacteren met 3D-omgevingen. Het vastleggen van pixeluitgelijnde metrische diepte met RGB-D-camera's zou de meest haalbare methode zijn, maar wordt vaak belemmerd door hardwarebeperkingen en uitdagende beeldvormingsomstandigheden, vooral bij aanwezigheid van spiegelende of textuurloze oppervlakken. In dit werk stellen wij dat de onnauwkeurigheden van dieptesensoren kunnen worden gezien als "gemaskeerde" signalen die inherent onderliggende geometrische ambiguïteiten reflecteren. Voortbordurend op deze motivatie presenteren wij LingBot-Depth, een dieptecompleteringsmodel dat visuele context benut om dieptekaarten te verfijnen door gemaskeerde dieptemodellering, en dat een geautomatiseerde datacuratiepijplijn incorporeert voor schaalbare training. Het is bemoedigend dat ons model toonaangevende RGB-D-camera's overtreft op het gebied van zowel dieptenauwkeurigheid als pixeldekking. Experimentele resultaten voor een reeks downstreamtaken suggereren verder dat LingBot-Depth een uitgelijnde latente representatie biedt over RGB- en dieptemodaliteiten heen. Wij maken de code, checkpoint en 3M RGB-diepteparen (inclusief 2M echte data en 1M gesimuleerde data) openbaar voor de gemeenschap op het gebied van ruimtelijke waarneming.
English
Spatial visual perception is a fundamental requirement in physical-world applications like autonomous driving and robotic manipulation, driven by the need to interact with 3D environments. Capturing pixel-aligned metric depth using RGB-D cameras would be the most viable way, yet it usually faces obstacles posed by hardware limitations and challenging imaging conditions, especially in the presence of specular or texture-less surfaces. In this work, we argue that the inaccuracies from depth sensors can be viewed as "masked" signals that inherently reflect underlying geometric ambiguities. Building on this motivation, we present LingBot-Depth, a depth completion model which leverages visual context to refine depth maps through masked depth modeling and incorporates an automated data curation pipeline for scalable training. It is encouraging to see that our model outperforms top-tier RGB-D cameras in terms of both depth precision and pixel coverage. Experimental results on a range of downstream tasks further suggest that LingBot-Depth offers an aligned latent representation across RGB and depth modalities. We release the code, checkpoint, and 3M RGB-depth pairs (including 2M real data and 1M simulated data) to the community of spatial perception.