空間知覚のためのマスク深度モデリング
Masked Depth Modeling for Spatial Perception
January 25, 2026
著者: Bin Tan, Changjiang Sun, Xiage Qin, Hanat Adai, Zelin Fu, Tianxiang Zhou, Han Zhang, Yinghao Xu, Xing Zhu, Yujun Shen, Nan Xue
cs.AI
要旨
空間的視覚認識は、自律走行やロボット操作といった実世界応用における基本的要件であり、3D環境との相互作用の必要性に駆動されている。RGB-Dカメラを用いたピクセル位置合わせされた計量深度の取得が最も実現可能な方法であるが、ハードウェリの制約や、特に鏡面反射やテクスチャのない表面が存在する場合の困難な撮影条件によって障壁に直面することが多い。本研究では、深度センサーからの不正確さを、本質的に基礎となる幾何学的曖昧性を反映する「マスクされた」信号と見なせることを主張する。この動機に基づき、我々は視覚的コンテキストを活用してマスク深度モデリングにより深度マップを精緻化し、スケーラブルな訓練のための自動データキュレーションパイプラインを組み込んだ深度補完モデルLingBot-Depthを提案する。我々のモデルが深度精度とピクセルカバレッジの両面で最高水準のRGB-Dカメラを上回る結果は鼓舞に値する。一連の下流タスクにおける実験結果はさらに、LingBot-DepthがRGBと深度モダリティに跨る整合性のある潜在表現を提供することを示唆している。コード、チェックポイント、および300万組のRGB-深度ペア(実データ200万組、シミュレーションデータ100万組を含む)を空間知覚コミュニティに公開する。
English
Spatial visual perception is a fundamental requirement in physical-world applications like autonomous driving and robotic manipulation, driven by the need to interact with 3D environments. Capturing pixel-aligned metric depth using RGB-D cameras would be the most viable way, yet it usually faces obstacles posed by hardware limitations and challenging imaging conditions, especially in the presence of specular or texture-less surfaces. In this work, we argue that the inaccuracies from depth sensors can be viewed as "masked" signals that inherently reflect underlying geometric ambiguities. Building on this motivation, we present LingBot-Depth, a depth completion model which leverages visual context to refine depth maps through masked depth modeling and incorporates an automated data curation pipeline for scalable training. It is encouraging to see that our model outperforms top-tier RGB-D cameras in terms of both depth precision and pixel coverage. Experimental results on a range of downstream tasks further suggest that LingBot-Depth offers an aligned latent representation across RGB and depth modalities. We release the code, checkpoint, and 3M RGB-depth pairs (including 2M real data and 1M simulated data) to the community of spatial perception.