AnyDepth : L'estimation de profondeur facilitée
AnyDepth: Depth Estimation Made Easy
January 6, 2026
papers.authors: Zeyu Ren, Zeyu Zhang, Wukai Li, Qingxiang Liu, Hao Tang
cs.AI
papers.abstract
L'estimation de profondeur monoculaire vise à reconstruire l'information de profondeur de scènes 3D à partir d'images 2D. Les travaux récents ont réalisé des progrès significatifs, mais leur dépendance à des jeux de données à grande échelle et à des décodeurs complexes a limité leur efficacité et leur capacité de généralisation. Dans cet article, nous proposons un cadre léger et axé sur les données pour l'estimation de profondeur monoculaire zero-shot. Nous adoptons d'abord DINOv3 comme encodeur visuel pour obtenir des caractéristiques denses de haute qualité. Ensuite, pour remédier aux inconvénients inhérents à la structure complexe du DPT, nous concevons le Simple Depth Transformer (SDT), un décodeur compact basé sur les transformers. Comparé au DPT, il utilise un processus de fusion de caractéristiques et de suréchantillonnage à chemin unique pour réduire la surcharge computationnelle de la fusion de caractéristiques multi-échelles, atteignant une plus grande précision tout en réduisant le nombre de paramètres d'environ 85 % à 89 %. De plus, nous proposons une stratégie de filtrage basée sur la qualité pour éliminer les échantillons nuisibles, réduisant ainsi la taille du jeu de données tout en améliorant la qualité globale de l'entraînement. Des expériences approfondies sur cinq benchmarks démontrent que notre cadre surpasse le DPT en précision. Ce travail souligne l'importance d'équilibrer la conception du modèle et la qualité des données pour réaliser une estimation de profondeur zero-shot efficace et généralisable. Code : https://github.com/AIGeeksGroup/AnyDepth. Site web : https://aigeeksgroup.github.io/AnyDepth.
English
Monocular depth estimation aims to recover the depth information of 3D scenes from 2D images. Recent work has made significant progress, but its reliance on large-scale datasets and complex decoders has limited its efficiency and generalization ability. In this paper, we propose a lightweight and data-centric framework for zero-shot monocular depth estimation. We first adopt DINOv3 as the visual encoder to obtain high-quality dense features. Secondly, to address the inherent drawbacks of the complex structure of the DPT, we design the Simple Depth Transformer (SDT), a compact transformer-based decoder. Compared to the DPT, it uses a single-path feature fusion and upsampling process to reduce the computational overhead of cross-scale feature fusion, achieving higher accuracy while reducing the number of parameters by approximately 85%-89%. Furthermore, we propose a quality-based filtering strategy to filter out harmful samples, thereby reducing dataset size while improving overall training quality. Extensive experiments on five benchmarks demonstrate that our framework surpasses the DPT in accuracy. This work highlights the importance of balancing model design and data quality for achieving efficient and generalizable zero-shot depth estimation. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.