ChatPaper.aiChatPaper

AnyDepth: Einfache Tiefenschätzung

AnyDepth: Depth Estimation Made Easy

January 6, 2026
papers.authors: Zeyu Ren, Zeyu Zhang, Wukai Li, Qingxiang Liu, Hao Tang
cs.AI

papers.abstract

Monokulare Tiefenschätzung zielt darauf ab, die Tiefeninformationen von 3D-Szenen aus 2D-Bildern wiederherzustellen. Jüngste Arbeiten haben bedeutende Fortschritte erzielt, doch die Abhängigkeit von groß angelegten Datensätzen und komplexen Decodern hat ihre Effizienz und Generalisierungsfähigkeit eingeschränkt. In diesem Beitrag schlagen wir einen leichtgewichtigen und datenzentrierten Rahmenansatz für die null-Shot monokulare Tiefenschätzung vor. Zunächst setzen wir DINOv3 als visuellen Encoder ein, um hochwertige dichte Merkmale zu erhalten. Zweitens entwerfen wir, um die inhärenten Nachteile der komplexen Struktur des DPT zu adressieren, den Simple Depth Transformer (SDT), einen kompakten transformerbasierten Decoder. Im Vergleich zum DPT verwendet dieser einen Einzelweg-Feature-Fusion- und Upsampling-Prozess, um den Rechenaufwand der skalenübergreifenden Merkmalsfusion zu reduzieren, und erreicht dabei eine höhere Genauigkeit, während die Anzahl der Parameter um etwa 85 %–89 % reduziert wird. Darüber hinaus schlagen wir eine qualitätsbasierte Filterstrategie vor, um schädliche Stichproben herauszufiltern, wodurch die Datensatzgröße verringert und gleichzeitig die allgemeine Trainingsqualität verbessert wird. Umfangreiche Experimente auf fünf Benchmarks zeigen, dass unser Rahmenansatz den DPT in puncto Genauigkeit übertrifft. Diese Arbeit unterstreicht die Bedeutung einer Ausgewogenheit zwischen Modellentwurf und Datenqualität, um eine effiziente und generalisierbare null-Shot Tiefenschätzung zu erreichen. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.
English
Monocular depth estimation aims to recover the depth information of 3D scenes from 2D images. Recent work has made significant progress, but its reliance on large-scale datasets and complex decoders has limited its efficiency and generalization ability. In this paper, we propose a lightweight and data-centric framework for zero-shot monocular depth estimation. We first adopt DINOv3 as the visual encoder to obtain high-quality dense features. Secondly, to address the inherent drawbacks of the complex structure of the DPT, we design the Simple Depth Transformer (SDT), a compact transformer-based decoder. Compared to the DPT, it uses a single-path feature fusion and upsampling process to reduce the computational overhead of cross-scale feature fusion, achieving higher accuracy while reducing the number of parameters by approximately 85%-89%. Furthermore, we propose a quality-based filtering strategy to filter out harmful samples, thereby reducing dataset size while improving overall training quality. Extensive experiments on five benchmarks demonstrate that our framework surpasses the DPT in accuracy. This work highlights the importance of balancing model design and data quality for achieving efficient and generalizable zero-shot depth estimation. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.
PDF41January 13, 2026