Distila Cualquier Profundidad: La Destilación Crea un Estimador de Profundidad Monocular Más Potente

Resumen

La estimación de profundidad monocular (MDE, por sus siglas en inglés) tiene como objetivo predecir la profundidad de una escena a partir de una única imagen RGB y desempeña un papel crucial en la comprensión de escenas 3D. Los avances recientes en MDE de cero disparos aprovechan representaciones de profundidad normalizada y aprendizaje basado en destilación para mejorar la generalización en diversas escenas. Sin embargo, los métodos actuales de normalización de profundidad para destilación, que dependen de la normalización global, pueden amplificar etiquetas pseudo-ruidosas, reduciendo la efectividad de la destilación. En este artículo, analizamos sistemáticamente el impacto de diferentes estrategias de normalización de profundidad en la destilación de etiquetas pseudo. Basándonos en nuestros hallazgos, proponemos la Destilación de Contexto Cruzado, que integra señales de profundidad globales y locales para mejorar la calidad de las etiquetas pseudo. Además, introducimos un marco de destilación multi-maestro que aprovecha las fortalezas complementarias de diferentes modelos de estimación de profundidad, lo que conduce a predicciones de profundidad más robustas y precisas. Experimentos exhaustivos en conjuntos de datos de referencia demuestran que nuestro enfoque supera significativamente a los métodos más avanzados, tanto cuantitativa como cualitativamente.

English

Monocular depth estimation (MDE) aims to predict scene depth from a single RGB image and plays a crucial role in 3D scene understanding. Recent advances in zero-shot MDE leverage normalized depth representations and distillation-based learning to improve generalization across diverse scenes. However, current depth normalization methods for distillation, relying on global normalization, can amplify noisy pseudo-labels, reducing distillation effectiveness. In this paper, we systematically analyze the impact of different depth normalization strategies on pseudo-label distillation. Based on our findings, we propose Cross-Context Distillation, which integrates global and local depth cues to enhance pseudo-label quality. Additionally, we introduce a multi-teacher distillation framework that leverages complementary strengths of different depth estimation models, leading to more robust and accurate depth predictions. Extensive experiments on benchmark datasets demonstrate that our approach significantly outperforms state-of-the-art methods, both quantitatively and qualitatively.

Distila Cualquier Profundidad: La Destilación Crea un Estimador de Profundidad Monocular Más Potente

Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

Resumen

Support