ChatPaper.aiChatPaper

Distill Any Depth: La Distillazione Crea un Stimatore di Profondità Monoculare Più Forte

Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

February 26, 2025
Autori: Xiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang
cs.AI

Abstract

La stima della profondità monoculare (MDE, Monocular Depth Estimation) mira a prevedere la profondità di una scena a partire da una singola immagine RGB e svolge un ruolo cruciale nella comprensione delle scene 3D. I recenti progressi nella MDE zero-shot sfruttano rappresentazioni di profondità normalizzate e apprendimento basato su distillazione per migliorare la generalizzazione su scene diverse. Tuttavia, gli attuali metodi di normalizzazione della profondità per la distillazione, che si basano sulla normalizzazione globale, possono amplificare etichette pseudo-rumorose, riducendo l'efficacia della distillazione. In questo articolo, analizziamo sistematicamente l'impatto di diverse strategie di normalizzazione della profondità sulla distillazione delle etichette pseudo. Sulla base dei nostri risultati, proponiamo la Cross-Context Distillation, che integra indizi di profondità globali e locali per migliorare la qualità delle etichette pseudo. Inoltre, introduciamo un framework di distillazione multi-insegnante che sfrutta i punti di forza complementari di diversi modelli di stima della profondità, portando a previsioni di profondità più robuste e accurate. Esperimenti estesi su dataset di riferimento dimostrano che il nostro approccio supera significativamente i metodi all'avanguardia, sia quantitativamente che qualitativamente.
English
Monocular depth estimation (MDE) aims to predict scene depth from a single RGB image and plays a crucial role in 3D scene understanding. Recent advances in zero-shot MDE leverage normalized depth representations and distillation-based learning to improve generalization across diverse scenes. However, current depth normalization methods for distillation, relying on global normalization, can amplify noisy pseudo-labels, reducing distillation effectiveness. In this paper, we systematically analyze the impact of different depth normalization strategies on pseudo-label distillation. Based on our findings, we propose Cross-Context Distillation, which integrates global and local depth cues to enhance pseudo-label quality. Additionally, we introduce a multi-teacher distillation framework that leverages complementary strengths of different depth estimation models, leading to more robust and accurate depth predictions. Extensive experiments on benchmark datasets demonstrate that our approach significantly outperforms state-of-the-art methods, both quantitatively and qualitatively.

Summary

AI-Generated Summary

PDF115February 27, 2025