ChatPaper.aiChatPaper

Distilleer Elke Diepte: Distillatie Creëert een Sterkere Monoculaire Diepteschatter

Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

February 26, 2025
Auteurs: Xiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang
cs.AI

Samenvatting

Monoculaire diepteschatting (MDE) heeft als doel om scènediepte te voorspellen vanuit een enkele RGB-afbeelding en speelt een cruciale rol in 3D-scènebegrip. Recente vooruitgang in zero-shot MDE maakt gebruik van genormaliseerde dieptevoorstellingen en distillatiegebaseerd leren om de generalisatie over diverse scènes te verbeteren. Huidige methoden voor dieptenormalisatie bij distillatie, die vertrouwen op globale normalisatie, kunnen echter ruisachtige pseudo-labels versterken, wat de effectiviteit van distillatie vermindert. In dit artikel analyseren we systematisch de impact van verschillende dieptenormalisatiestrategieën op pseudo-label distillatie. Op basis van onze bevindingen stellen we Cross-Context Distillatie voor, dat globale en lokale dieptesignalen integreert om de kwaliteit van pseudo-labels te verbeteren. Daarnaast introduceren we een multi-leraar distillatieraamwerk dat gebruikmaakt van de complementaire sterktes van verschillende diepteschattingsmodellen, wat leidt tot robuustere en nauwkeurigere dieptevoorspellingen. Uitgebreide experimenten op benchmarkdatasets tonen aan dat onze aanpak state-of-the-art methoden significant overtreft, zowel kwantitatief als kwalitatief.
English
Monocular depth estimation (MDE) aims to predict scene depth from a single RGB image and plays a crucial role in 3D scene understanding. Recent advances in zero-shot MDE leverage normalized depth representations and distillation-based learning to improve generalization across diverse scenes. However, current depth normalization methods for distillation, relying on global normalization, can amplify noisy pseudo-labels, reducing distillation effectiveness. In this paper, we systematically analyze the impact of different depth normalization strategies on pseudo-label distillation. Based on our findings, we propose Cross-Context Distillation, which integrates global and local depth cues to enhance pseudo-label quality. Additionally, we introduce a multi-teacher distillation framework that leverages complementary strengths of different depth estimation models, leading to more robust and accurate depth predictions. Extensive experiments on benchmark datasets demonstrate that our approach significantly outperforms state-of-the-art methods, both quantitatively and qualitatively.
PDF115February 27, 2025