AnyDepth: Оценка глубины без сложностей
AnyDepth: Depth Estimation Made Easy
January 6, 2026
Авторы: Zeyu Ren, Zeyu Zhang, Wukai Li, Qingxiang Liu, Hao Tang
cs.AI
Аннотация
Монокулярное оценивание глубины ставит целью восстановление информации о глубине трёхмерных сцен из двумерных изображений. В последних работах достигнут значительный прогресс, однако зависимость от крупномасштабных наборов данных и сложных декодеров ограничивает их эффективность и способность к обобщению. В данной статье мы предлагаем облегчённую и ориентированную на данные структуру для zero-shot монокулярного оценивания глубины. Сначала мы используем DINOv3 в качестве визуального энкодера для получения качественных плотных признаков. Во-вторых, чтобы устранить присущие DPT недостатки сложной структуры, мы разрабатываем Simple Depth Transformer (SDT) — компактный трансформерный декодер. По сравнению с DPT, он использует одноконтурный процесс слияния признаков и апсемплинга для снижения вычислительных затрат на кросс-масштабное слияние признаков, достигая более высокой точности при сокращении количества параметров примерно на 85–89%. Кроме того, мы предлагаем стратегию фильтрации на основе качества для отсева вредоносных примеров, что позволяет уменьшить размер набора данных при одновременном повышении общего качества обучения. Многочисленные эксперименты на пяти тестовых наборах демонстрируют, что наша структура превосходит DPT по точности. Данная работа подчёркивает важность баланса между проектированием модели и качеством данных для достижения эффективного и обобщаемого zero-shot оценивания глубины. Код: https://github.com/AIGeeksGroup/AnyDepth. Сайт: https://aigeeksgroup.github.io/AnyDepth.
English
Monocular depth estimation aims to recover the depth information of 3D scenes from 2D images. Recent work has made significant progress, but its reliance on large-scale datasets and complex decoders has limited its efficiency and generalization ability. In this paper, we propose a lightweight and data-centric framework for zero-shot monocular depth estimation. We first adopt DINOv3 as the visual encoder to obtain high-quality dense features. Secondly, to address the inherent drawbacks of the complex structure of the DPT, we design the Simple Depth Transformer (SDT), a compact transformer-based decoder. Compared to the DPT, it uses a single-path feature fusion and upsampling process to reduce the computational overhead of cross-scale feature fusion, achieving higher accuracy while reducing the number of parameters by approximately 85%-89%. Furthermore, we propose a quality-based filtering strategy to filter out harmful samples, thereby reducing dataset size while improving overall training quality. Extensive experiments on five benchmarks demonstrate that our framework surpasses the DPT in accuracy. This work highlights the importance of balancing model design and data quality for achieving efficient and generalizable zero-shot depth estimation. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.