Distill Any Depth: La Distillazione Crea un Stimatore di Profondità Monoculare Più Forte
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator
February 26, 2025
Autori: Xiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang
cs.AI
Abstract
La stima della profondità monoculare (MDE, Monocular Depth Estimation) mira a prevedere la profondità di una scena a partire da una singola immagine RGB e svolge un ruolo cruciale nella comprensione delle scene 3D. I recenti progressi nella MDE zero-shot sfruttano rappresentazioni di profondità normalizzate e apprendimento basato su distillazione per migliorare la generalizzazione su scene diverse. Tuttavia, gli attuali metodi di normalizzazione della profondità per la distillazione, che si basano sulla normalizzazione globale, possono amplificare etichette pseudo-rumorose, riducendo l'efficacia della distillazione. In questo articolo, analizziamo sistematicamente l'impatto di diverse strategie di normalizzazione della profondità sulla distillazione delle etichette pseudo. Sulla base dei nostri risultati, proponiamo la Cross-Context Distillation, che integra indizi di profondità globali e locali per migliorare la qualità delle etichette pseudo. Inoltre, introduciamo un framework di distillazione multi-insegnante che sfrutta i punti di forza complementari di diversi modelli di stima della profondità, portando a previsioni di profondità più robuste e accurate. Esperimenti estesi su dataset di riferimento dimostrano che il nostro approccio supera significativamente i metodi all'avanguardia, sia quantitativamente che qualitativamente.
English
Monocular depth estimation (MDE) aims to predict scene depth from a single
RGB image and plays a crucial role in 3D scene understanding. Recent advances
in zero-shot MDE leverage normalized depth representations and
distillation-based learning to improve generalization across diverse scenes.
However, current depth normalization methods for distillation, relying on
global normalization, can amplify noisy pseudo-labels, reducing distillation
effectiveness. In this paper, we systematically analyze the impact of different
depth normalization strategies on pseudo-label distillation. Based on our
findings, we propose Cross-Context Distillation, which integrates global and
local depth cues to enhance pseudo-label quality. Additionally, we introduce a
multi-teacher distillation framework that leverages complementary strengths of
different depth estimation models, leading to more robust and accurate depth
predictions. Extensive experiments on benchmark datasets demonstrate that our
approach significantly outperforms state-of-the-art methods, both
quantitatively and qualitatively.Summary
AI-Generated Summary