Distilleer Elke Diepte: Distillatie Creëert een Sterkere Monoculaire Diepteschatter
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator
February 26, 2025
Auteurs: Xiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang
cs.AI
Samenvatting
Monoculaire diepteschatting (MDE) heeft als doel om scènediepte te voorspellen vanuit een enkele RGB-afbeelding en speelt een cruciale rol in 3D-scènebegrip. Recente vooruitgang in zero-shot MDE maakt gebruik van genormaliseerde dieptevoorstellingen en distillatiegebaseerd leren om de generalisatie over diverse scènes te verbeteren. Huidige methoden voor dieptenormalisatie bij distillatie, die vertrouwen op globale normalisatie, kunnen echter ruisachtige pseudo-labels versterken, wat de effectiviteit van distillatie vermindert. In dit artikel analyseren we systematisch de impact van verschillende dieptenormalisatiestrategieën op pseudo-label distillatie. Op basis van onze bevindingen stellen we Cross-Context Distillatie voor, dat globale en lokale dieptesignalen integreert om de kwaliteit van pseudo-labels te verbeteren. Daarnaast introduceren we een multi-leraar distillatieraamwerk dat gebruikmaakt van de complementaire sterktes van verschillende diepteschattingsmodellen, wat leidt tot robuustere en nauwkeurigere dieptevoorspellingen. Uitgebreide experimenten op benchmarkdatasets tonen aan dat onze aanpak state-of-the-art methoden significant overtreft, zowel kwantitatief als kwalitatief.
English
Monocular depth estimation (MDE) aims to predict scene depth from a single
RGB image and plays a crucial role in 3D scene understanding. Recent advances
in zero-shot MDE leverage normalized depth representations and
distillation-based learning to improve generalization across diverse scenes.
However, current depth normalization methods for distillation, relying on
global normalization, can amplify noisy pseudo-labels, reducing distillation
effectiveness. In this paper, we systematically analyze the impact of different
depth normalization strategies on pseudo-label distillation. Based on our
findings, we propose Cross-Context Distillation, which integrates global and
local depth cues to enhance pseudo-label quality. Additionally, we introduce a
multi-teacher distillation framework that leverages complementary strengths of
different depth estimation models, leading to more robust and accurate depth
predictions. Extensive experiments on benchmark datasets demonstrate that our
approach significantly outperforms state-of-the-art methods, both
quantitatively and qualitatively.