Distill Any Depth: Дистилляция создаёт более мощный монокулярный оценщик глубины

Аннотация

Монокулярное оценивание глубины (MDE) направлено на предсказание глубины сцены по одному RGB-изображению и играет ключевую роль в понимании трехмерных сцен. Последние достижения в области MDE с нулевым обучением используют нормализованные представления глубины и обучение на основе дистилляции для улучшения обобщения на разнообразные сцены. Однако современные методы нормализации глубины для дистилляции, основанные на глобальной нормализации, могут усиливать шум в псевдометках, снижая эффективность дистилляции. В данной работе мы систематически анализируем влияние различных стратегий нормализации глубины на дистилляцию псевдометок. На основе полученных результатов мы предлагаем метод Cross-Context Distillation, который интегрирует глобальные и локальные подсказки глубины для повышения качества псевдометок. Кроме того, мы представляем фреймворк многопреподавательской дистилляции, который использует комплементарные сильные стороны различных моделей оценивания глубины, что приводит к более устойчивым и точным предсказаниям глубины. Эксперименты на эталонных наборах данных демонстрируют, что наш подход значительно превосходит современные методы как количественно, так и качественно.

English

Monocular depth estimation (MDE) aims to predict scene depth from a single RGB image and plays a crucial role in 3D scene understanding. Recent advances in zero-shot MDE leverage normalized depth representations and distillation-based learning to improve generalization across diverse scenes. However, current depth normalization methods for distillation, relying on global normalization, can amplify noisy pseudo-labels, reducing distillation effectiveness. In this paper, we systematically analyze the impact of different depth normalization strategies on pseudo-label distillation. Based on our findings, we propose Cross-Context Distillation, which integrates global and local depth cues to enhance pseudo-label quality. Additionally, we introduce a multi-teacher distillation framework that leverages complementary strengths of different depth estimation models, leading to more robust and accurate depth predictions. Extensive experiments on benchmark datasets demonstrate that our approach significantly outperforms state-of-the-art methods, both quantitatively and qualitatively.

Distill Any Depth: Дистилляция создаёт более мощный монокулярный оценщик глубины

Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

Аннотация

Support