Destilar Qualquer Profundidade: A Destilação Cria um Estimador de Profundidade Monocular Mais Forte
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator
February 26, 2025
Autores: Xiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang
cs.AI
Resumo
A estimativa de profundidade monocular (MDE) tem como objetivo prever a profundidade da cena a partir de uma única imagem RGB e desempenha um papel crucial na compreensão de cenas em 3D. Avanços recentes em MDE de zero-shot aproveitam representações de profundidade normalizadas e aprendizado baseado em destilação para melhorar a generalização em cenas diversas. No entanto, os métodos atuais de normalização de profundidade para destilação, que dependem de normalização global, podem amplificar rótulos pseudo-ruidosos, reduzindo a eficácia da destilação. Neste artigo, analisamos sistematicamente o impacto de diferentes estratégias de normalização de profundidade na destilação de rótulos pseudo. Com base em nossas descobertas, propomos a Destilação de Contexto Cruzado, que integra pistas de profundidade globais e locais para aprimorar a qualidade dos rótulos pseudo. Além disso, introduzimos um framework de destilação multi-professor que aproveita as forças complementares de diferentes modelos de estimativa de profundidade, resultando em previsões de profundidade mais robustas e precisas. Experimentos extensivos em conjuntos de dados de referência demonstram que nossa abordagem supera significativamente os métodos de ponta, tanto quantitativa quanto qualitativamente.
English
Monocular depth estimation (MDE) aims to predict scene depth from a single
RGB image and plays a crucial role in 3D scene understanding. Recent advances
in zero-shot MDE leverage normalized depth representations and
distillation-based learning to improve generalization across diverse scenes.
However, current depth normalization methods for distillation, relying on
global normalization, can amplify noisy pseudo-labels, reducing distillation
effectiveness. In this paper, we systematically analyze the impact of different
depth normalization strategies on pseudo-label distillation. Based on our
findings, we propose Cross-Context Distillation, which integrates global and
local depth cues to enhance pseudo-label quality. Additionally, we introduce a
multi-teacher distillation framework that leverages complementary strengths of
different depth estimation models, leading to more robust and accurate depth
predictions. Extensive experiments on benchmark datasets demonstrate that our
approach significantly outperforms state-of-the-art methods, both
quantitatively and qualitatively.Summary
AI-Generated Summary