Distill Any Depth: Дистилляция создаёт более мощный монокулярный оценщик глубины
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator
February 26, 2025
Авторы: Xiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang
cs.AI
Аннотация
Монокулярное оценивание глубины (MDE) направлено на предсказание глубины сцены по одному RGB-изображению и играет ключевую роль в понимании трехмерных сцен. Последние достижения в области MDE с нулевым обучением используют нормализованные представления глубины и обучение на основе дистилляции для улучшения обобщения на разнообразные сцены. Однако современные методы нормализации глубины для дистилляции, основанные на глобальной нормализации, могут усиливать шум в псевдометках, снижая эффективность дистилляции. В данной работе мы систематически анализируем влияние различных стратегий нормализации глубины на дистилляцию псевдометок. На основе полученных результатов мы предлагаем метод Cross-Context Distillation, который интегрирует глобальные и локальные подсказки глубины для повышения качества псевдометок. Кроме того, мы представляем фреймворк многопреподавательской дистилляции, который использует комплементарные сильные стороны различных моделей оценивания глубины, что приводит к более устойчивым и точным предсказаниям глубины. Эксперименты на эталонных наборах данных демонстрируют, что наш подход значительно превосходит современные методы как количественно, так и качественно.
English
Monocular depth estimation (MDE) aims to predict scene depth from a single
RGB image and plays a crucial role in 3D scene understanding. Recent advances
in zero-shot MDE leverage normalized depth representations and
distillation-based learning to improve generalization across diverse scenes.
However, current depth normalization methods for distillation, relying on
global normalization, can amplify noisy pseudo-labels, reducing distillation
effectiveness. In this paper, we systematically analyze the impact of different
depth normalization strategies on pseudo-label distillation. Based on our
findings, we propose Cross-Context Distillation, which integrates global and
local depth cues to enhance pseudo-label quality. Additionally, we introduce a
multi-teacher distillation framework that leverages complementary strengths of
different depth estimation models, leading to more robust and accurate depth
predictions. Extensive experiments on benchmark datasets demonstrate that our
approach significantly outperforms state-of-the-art methods, both
quantitatively and qualitatively.Summary
AI-Generated Summary