공간 인식을 위한 마스킹 깊이 모델링
Masked Depth Modeling for Spatial Perception
January 25, 2026
저자: Bin Tan, Changjiang Sun, Xiage Qin, Hanat Adai, Zelin Fu, Tianxiang Zhou, Han Zhang, Yinghao Xu, Xing Zhu, Yujun Shen, Nan Xue
cs.AI
초록
공간 시각 인지는 자율 주행 및 로봇 매니픽레이션과 같은 실제 세계 응용 분야에서 3D 환경과 상호작용해야 할 필요성에 따라 필수적인 요구사항입니다. RGB-D 카메라를 사용하여 픽셀 정렬된 계측 깊이를 획득하는 것이 가장 실현 가능한 방법이지만, 이는 일반적으로 하드웨어적 한계와 특히 반사 표면이나 무늬가 없는 표면이 존재할 때의 까다로운成像 조건으로 인한 장애에 직면합니다. 본 연구에서는 깊이 센서의 부정확성을 근본적인 기하학적 모호성을 내재적으로 반영하는 "가려진" 신호로 볼 수 있다고 주장합니다. 이러한 동기를 바탕으로, 우리는 시각적 문맥을 활용하여 가려진 깊이 모델링을 통해 깊이 맵을 정제하고 확장 가능한 학습을 위한 자동화된 데이터 큐레이션 파이프라인을 통합한 깊이 완성 모델인 LingBot-Depth를 제안합니다. 우리 모델이 깊이 정밀도와 픽셀 커버리지 측면에서 최상위 RGB-D 카메라를 능가한다는 사실은 고무적입니다. 다양한 다운스트림 작업에 대한 실험 결과는 LingBot-Depth가 RGB와 깊이 양 모달리티에 걸쳐 정렬된 잠재 표현을 제공함을 추가로 시사합니다. 우리는 공간 인지 커뮤니티에 코드, 체크포인트 및 3M개의 RGB-깊이 쌍(실제 데이터 2M, 시뮬레이션 데이터 1M 포함)을 공개합니다.
English
Spatial visual perception is a fundamental requirement in physical-world applications like autonomous driving and robotic manipulation, driven by the need to interact with 3D environments. Capturing pixel-aligned metric depth using RGB-D cameras would be the most viable way, yet it usually faces obstacles posed by hardware limitations and challenging imaging conditions, especially in the presence of specular or texture-less surfaces. In this work, we argue that the inaccuracies from depth sensors can be viewed as "masked" signals that inherently reflect underlying geometric ambiguities. Building on this motivation, we present LingBot-Depth, a depth completion model which leverages visual context to refine depth maps through masked depth modeling and incorporates an automated data curation pipeline for scalable training. It is encouraging to see that our model outperforms top-tier RGB-D cameras in terms of both depth precision and pixel coverage. Experimental results on a range of downstream tasks further suggest that LingBot-Depth offers an aligned latent representation across RGB and depth modalities. We release the code, checkpoint, and 3M RGB-depth pairs (including 2M real data and 1M simulated data) to the community of spatial perception.