Distila Cualquier Profundidad: La Destilación Crea un Estimador de Profundidad Monocular Más Potente
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator
February 26, 2025
Autores: Xiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang
cs.AI
Resumen
La estimación de profundidad monocular (MDE, por sus siglas en inglés) tiene como objetivo predecir la profundidad de una escena a partir de una única imagen RGB y desempeña un papel crucial en la comprensión de escenas 3D. Los avances recientes en MDE de cero disparos aprovechan representaciones de profundidad normalizada y aprendizaje basado en destilación para mejorar la generalización en diversas escenas. Sin embargo, los métodos actuales de normalización de profundidad para destilación, que dependen de la normalización global, pueden amplificar etiquetas pseudo-ruidosas, reduciendo la efectividad de la destilación. En este artículo, analizamos sistemáticamente el impacto de diferentes estrategias de normalización de profundidad en la destilación de etiquetas pseudo. Basándonos en nuestros hallazgos, proponemos la Destilación de Contexto Cruzado, que integra señales de profundidad globales y locales para mejorar la calidad de las etiquetas pseudo. Además, introducimos un marco de destilación multi-maestro que aprovecha las fortalezas complementarias de diferentes modelos de estimación de profundidad, lo que conduce a predicciones de profundidad más robustas y precisas. Experimentos exhaustivos en conjuntos de datos de referencia demuestran que nuestro enfoque supera significativamente a los métodos más avanzados, tanto cuantitativa como cualitativamente.
English
Monocular depth estimation (MDE) aims to predict scene depth from a single
RGB image and plays a crucial role in 3D scene understanding. Recent advances
in zero-shot MDE leverage normalized depth representations and
distillation-based learning to improve generalization across diverse scenes.
However, current depth normalization methods for distillation, relying on
global normalization, can amplify noisy pseudo-labels, reducing distillation
effectiveness. In this paper, we systematically analyze the impact of different
depth normalization strategies on pseudo-label distillation. Based on our
findings, we propose Cross-Context Distillation, which integrates global and
local depth cues to enhance pseudo-label quality. Additionally, we introduce a
multi-teacher distillation framework that leverages complementary strengths of
different depth estimation models, leading to more robust and accurate depth
predictions. Extensive experiments on benchmark datasets demonstrate that our
approach significantly outperforms state-of-the-art methods, both
quantitatively and qualitatively.Summary
AI-Generated Summary