Modelado de Profundidad Enmascarada para la Percepción Espacial
Masked Depth Modeling for Spatial Perception
January 25, 2026
Autores: Bin Tan, Changjiang Sun, Xiage Qin, Hanat Adai, Zelin Fu, Tianxiang Zhou, Han Zhang, Yinghao Xu, Xing Zhu, Yujun Shen, Nan Xue
cs.AI
Resumen
La percepción visual espacial es un requisito fundamental en aplicaciones del mundo físico como la conducción autónoma y la manipulación robótica, impulsada por la necesidad de interactuar con entornos 3D. La captura de profundidad métrica alineada a píxel mediante cámaras RGB-D sería la forma más viable, pero suele enfrentar obstáculos planteados por las limitaciones del hardware y condiciones de imagen desafiantes, especialmente en presencia de superficies especulares o sin textura. En este trabajo, argumentamos que las imprecisiones de los sensores de profundidad pueden verse como señales "enmascaradas" que reflejan inherentemente ambigüedades geométricas subyacentes. Basándonos en esta motivación, presentamos LingBot-Depth, un modelo de completado de profundidad que aprovecha el contexto visual para refinar mapas de profundidad mediante el modelado de profundidad enmascarada e incorpora un pipeline automatizado de curación de datos para un entrenamiento escalable. Es alentador observar que nuestro modelo supera a las cámaras RGB-D de primer nivel en términos de precisión de profundidad y cobertura de píxeles. Los resultados experimentales en una variedad de tareas posteriores sugieren además que LingBot-Depth ofrece una representación latente alineada a través de las modalidades RGB y de profundidad. Liberamos el código, el punto de control y 3M pares RGB-profundidad (incluyendo 2M de datos reales y 1M de datos simulados) para la comunidad de percepción espacial.
English
Spatial visual perception is a fundamental requirement in physical-world applications like autonomous driving and robotic manipulation, driven by the need to interact with 3D environments. Capturing pixel-aligned metric depth using RGB-D cameras would be the most viable way, yet it usually faces obstacles posed by hardware limitations and challenging imaging conditions, especially in the presence of specular or texture-less surfaces. In this work, we argue that the inaccuracies from depth sensors can be viewed as "masked" signals that inherently reflect underlying geometric ambiguities. Building on this motivation, we present LingBot-Depth, a depth completion model which leverages visual context to refine depth maps through masked depth modeling and incorporates an automated data curation pipeline for scalable training. It is encouraging to see that our model outperforms top-tier RGB-D cameras in terms of both depth precision and pixel coverage. Experimental results on a range of downstream tasks further suggest that LingBot-Depth offers an aligned latent representation across RGB and depth modalities. We release the code, checkpoint, and 3M RGB-depth pairs (including 2M real data and 1M simulated data) to the community of spatial perception.