Distill Any Depth : La distillation crée un estimateur de profondeur monoculaire plus performant
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator
February 26, 2025
Auteurs: Xiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang
cs.AI
Résumé
L'estimation de profondeur monoculaire (MDE) vise à prédire la profondeur d'une scène à partir d'une seule image RGB et joue un rôle crucial dans la compréhension des scènes 3D. Les avancées récentes en MDE zero-shot exploitent des représentations de profondeur normalisées et un apprentissage par distillation pour améliorer la généralisation à travers des scènes variées. Cependant, les méthodes actuelles de normalisation de la profondeur pour la distillation, reposant sur une normalisation globale, peuvent amplifier les pseudo-étiquettes bruitées, réduisant ainsi l'efficacité de la distillation. Dans cet article, nous analysons systématiquement l'impact de différentes stratégies de normalisation de la profondeur sur la distillation des pseudo-étiquettes. Sur la base de nos observations, nous proposons la Distillation Trans-contextuelle, qui intègre des indices de profondeur globaux et locaux pour améliorer la qualité des pseudo-étiquettes. De plus, nous introduisons un cadre de distillation multi-enseignants qui exploite les forces complémentaires de différents modèles d'estimation de profondeur, conduisant à des prédictions de profondeur plus robustes et précises. Des expériences approfondies sur des ensembles de données de référence démontrent que notre approche surpasse significativement les méthodes de pointe, à la fois quantitativement et qualitativement.
English
Monocular depth estimation (MDE) aims to predict scene depth from a single
RGB image and plays a crucial role in 3D scene understanding. Recent advances
in zero-shot MDE leverage normalized depth representations and
distillation-based learning to improve generalization across diverse scenes.
However, current depth normalization methods for distillation, relying on
global normalization, can amplify noisy pseudo-labels, reducing distillation
effectiveness. In this paper, we systematically analyze the impact of different
depth normalization strategies on pseudo-label distillation. Based on our
findings, we propose Cross-Context Distillation, which integrates global and
local depth cues to enhance pseudo-label quality. Additionally, we introduce a
multi-teacher distillation framework that leverages complementary strengths of
different depth estimation models, leading to more robust and accurate depth
predictions. Extensive experiments on benchmark datasets demonstrate that our
approach significantly outperforms state-of-the-art methods, both
quantitatively and qualitatively.Summary
AI-Generated Summary