AnyDepth: Stima della Profondità Semplificata
AnyDepth: Depth Estimation Made Easy
January 6, 2026
Autori: Zeyu Ren, Zeyu Zhang, Wukai Li, Qingxiang Liu, Hao Tang
cs.AI
Abstract
La stima monoculare della profondità mira a recuperare le informazioni di profondità delle scene 3D a partire da immagini 2D. I lavori recenti hanno compiuto progressi significativi, ma la loro dipendenza da dataset su larga scala e decoder complessi ne ha limitato l'efficienza e la capacità di generalizzazione. In questo articolo, proponiamo un framework leggero e incentrato sui dati per la stima monoculare della profondità zero-shot. In primo luogo, adottiamo DINOv3 come encoder visivo per ottenere feature dense di alta qualità. In secondo luogo, per affrontare gli svantaggi intrinseci della struttura complessa del DPT, progettiamo il Simple Depth Transformer (SDT), un decoder compatto basato su transformer. Rispetto al DPT, esso utilizza un processo di fusione e upsampling delle feature a percorso singolo per ridurre il sovraccarico computazionale della fusione di feature cross-scale, raggiungendo una maggiore accuratezza riducendo allo stesso tempo il numero di parametri di circa l'85%-89%. Inoltre, proponiamo una strategia di filtraggio basata sulla qualità per filtrare i campioni dannosi, riducendo così le dimensioni del dataset migliorando al contempo la qualità complessiva dell'addestramento. Esperimenti estesi su cinque benchmark dimostrano che il nostro framework supera il DPT in accuratezza. Questo lavoro evidenzia l'importanza di bilanciare la progettazione del modello e la qualità dei dati per ottenere una stima della profondità zero-shot efficiente e generalizzabile. Codice: https://github.com/AIGeeksGroup/AnyDepth. Sito web: https://aigeeksgroup.github.io/AnyDepth.
English
Monocular depth estimation aims to recover the depth information of 3D scenes from 2D images. Recent work has made significant progress, but its reliance on large-scale datasets and complex decoders has limited its efficiency and generalization ability. In this paper, we propose a lightweight and data-centric framework for zero-shot monocular depth estimation. We first adopt DINOv3 as the visual encoder to obtain high-quality dense features. Secondly, to address the inherent drawbacks of the complex structure of the DPT, we design the Simple Depth Transformer (SDT), a compact transformer-based decoder. Compared to the DPT, it uses a single-path feature fusion and upsampling process to reduce the computational overhead of cross-scale feature fusion, achieving higher accuracy while reducing the number of parameters by approximately 85%-89%. Furthermore, we propose a quality-based filtering strategy to filter out harmful samples, thereby reducing dataset size while improving overall training quality. Extensive experiments on five benchmarks demonstrate that our framework surpasses the DPT in accuracy. This work highlights the importance of balancing model design and data quality for achieving efficient and generalizable zero-shot depth estimation. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.