ChatPaper.aiChatPaper

AnyDepth: Diepteschatting Gemakkelijk Gemaakt

AnyDepth: Depth Estimation Made Easy

January 6, 2026
Auteurs: Zeyu Ren, Zeyu Zhang, Wukai Li, Qingxiang Liu, Hao Tang
cs.AI

Samenvatting

Monoculaire diepteschatting heeft als doel om de diepte-informatie van 3D-scènes te herstellen uit 2D-beelden. Recent onderzoek heeft aanzienlijke vooruitgang geboekt, maar de afhankelijkheid van grootschalige datasets en complexe decoders heeft de efficiëntie en generalisatievermogen beperkt. In dit artikel stellen we een lichtgewicht en data-gecentreerd raamwerk voor voor zero-shot monoculaire diepteschatting. Ten eerste gebruiken we DINOv3 als visuele encoder om hoogwaardige dense features te verkrijgen. Ten tweede, om de inherente nadelen van de complexe structuur van de DPT aan te pakken, ontwerpen we de Simple Depth Transformer (SDT), een compacte transformer-gebaseerde decoder. In vergelijking met de DPT gebruikt deze een enkelpad-fusieproces voor features en upsampling om de rekenkosten van kruis-schaal featurefusie te verminderen, waarbij een hogere nauwkeurigheid wordt bereikt terwijl het aantal parameters met ongeveer 85%-89% wordt gereduceerd. Verder stellen we een op kwaliteit gebaseerd filterstrategie voor om schadelijke samples eruit te filteren, waardoor de datasetgrootte wordt verkleind en de algehele trainingskwaliteit verbetert. Uitgebreide experimenten op vijf benchmarks tonen aan dat ons raamwerk de DPT in nauwkeurigheid overtreft. Dit werk benadrukt het belang van het balanceren van modelontwerp en data-kwaliteit voor het bereiken van efficiënte en generaliseerbare zero-shot diepteschatting. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.
English
Monocular depth estimation aims to recover the depth information of 3D scenes from 2D images. Recent work has made significant progress, but its reliance on large-scale datasets and complex decoders has limited its efficiency and generalization ability. In this paper, we propose a lightweight and data-centric framework for zero-shot monocular depth estimation. We first adopt DINOv3 as the visual encoder to obtain high-quality dense features. Secondly, to address the inherent drawbacks of the complex structure of the DPT, we design the Simple Depth Transformer (SDT), a compact transformer-based decoder. Compared to the DPT, it uses a single-path feature fusion and upsampling process to reduce the computational overhead of cross-scale feature fusion, achieving higher accuracy while reducing the number of parameters by approximately 85%-89%. Furthermore, we propose a quality-based filtering strategy to filter out harmful samples, thereby reducing dataset size while improving overall training quality. Extensive experiments on five benchmarks demonstrate that our framework surpasses the DPT in accuracy. This work highlights the importance of balancing model design and data quality for achieving efficient and generalizable zero-shot depth estimation. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.
PDF92January 16, 2026