Destilar Qualquer Profundidade: A Destilação Cria um Estimador de Profundidade Monocular Mais Forte

Resumo

A estimativa de profundidade monocular (MDE) tem como objetivo prever a profundidade da cena a partir de uma única imagem RGB e desempenha um papel crucial na compreensão de cenas em 3D. Avanços recentes em MDE de zero-shot aproveitam representações de profundidade normalizadas e aprendizado baseado em destilação para melhorar a generalização em cenas diversas. No entanto, os métodos atuais de normalização de profundidade para destilação, que dependem de normalização global, podem amplificar rótulos pseudo-ruidosos, reduzindo a eficácia da destilação. Neste artigo, analisamos sistematicamente o impacto de diferentes estratégias de normalização de profundidade na destilação de rótulos pseudo. Com base em nossas descobertas, propomos a Destilação de Contexto Cruzado, que integra pistas de profundidade globais e locais para aprimorar a qualidade dos rótulos pseudo. Além disso, introduzimos um framework de destilação multi-professor que aproveita as forças complementares de diferentes modelos de estimativa de profundidade, resultando em previsões de profundidade mais robustas e precisas. Experimentos extensivos em conjuntos de dados de referência demonstram que nossa abordagem supera significativamente os métodos de ponta, tanto quantitativa quanto qualitativamente.

English

Monocular depth estimation (MDE) aims to predict scene depth from a single RGB image and plays a crucial role in 3D scene understanding. Recent advances in zero-shot MDE leverage normalized depth representations and distillation-based learning to improve generalization across diverse scenes. However, current depth normalization methods for distillation, relying on global normalization, can amplify noisy pseudo-labels, reducing distillation effectiveness. In this paper, we systematically analyze the impact of different depth normalization strategies on pseudo-label distillation. Based on our findings, we propose Cross-Context Distillation, which integrates global and local depth cues to enhance pseudo-label quality. Additionally, we introduce a multi-teacher distillation framework that leverages complementary strengths of different depth estimation models, leading to more robust and accurate depth predictions. Extensive experiments on benchmark datasets demonstrate that our approach significantly outperforms state-of-the-art methods, both quantitatively and qualitatively.

Destilar Qualquer Profundidade: A Destilação Cria um Estimador de Profundidade Monocular Mais Forte

Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

Resumo

Support