AnyDepth:深度推定を簡単に
AnyDepth: Depth Estimation Made Easy
January 6, 2026
著者: Zeyu Ren, Zeyu Zhang, Wukai Li, Qingxiang Liu, Hao Tang
cs.AI
要旨
単眼深度推定は、2D画像から3Dシーンの深度情報を復元することを目的としている。近年の研究は大きな進展を見せているが、大規模データセットと複雑なデコーダへの依存が効率性と一般化能力を制限している。本論文では、ゼロショット単眼深度推定のための軽量かつデータ中心のフレームワークを提案する。まず、高品質な高密度特徴を取得するために、視覚エンコーダとしてDINOv3を採用する。次に、DPTの複雑な構造に内在する欠点に対処するため、コンパクトなTransformerベースのデコーダであるSimple Depth Transformer(SDT)を設計する。DPTと比較して、SDTはシングルパスでの特徴融合とアップサンプリングプロセスを採用し、クロススケール特徴融合の計算コストを削減することで、パラメータ数を約85%-89%削減しつつ、より高い精度を達成する。さらに、有害なサンプルをフィルタリングするための品質ベースのフィルタリング戦略を提案し、データセットサイズを削減しながら全体の学習品質を向上させる。5つのベンチマークによる大規模な実験により、本フレームワークが精度においてDPTを凌駕することを実証する。本研究成果は、効率的で一般化可能なゼロショット深度推定を実現するためには、モデル設計とデータ品質のバランスを取ることが重要であることを示唆している。コード:https://github.com/AIGeeksGroup/AnyDepth。ウェブサイト:https://aigeeksgroup.github.io/AnyDepth。
English
Monocular depth estimation aims to recover the depth information of 3D scenes from 2D images. Recent work has made significant progress, but its reliance on large-scale datasets and complex decoders has limited its efficiency and generalization ability. In this paper, we propose a lightweight and data-centric framework for zero-shot monocular depth estimation. We first adopt DINOv3 as the visual encoder to obtain high-quality dense features. Secondly, to address the inherent drawbacks of the complex structure of the DPT, we design the Simple Depth Transformer (SDT), a compact transformer-based decoder. Compared to the DPT, it uses a single-path feature fusion and upsampling process to reduce the computational overhead of cross-scale feature fusion, achieving higher accuracy while reducing the number of parameters by approximately 85%-89%. Furthermore, we propose a quality-based filtering strategy to filter out harmful samples, thereby reducing dataset size while improving overall training quality. Extensive experiments on five benchmarks demonstrate that our framework surpasses the DPT in accuracy. This work highlights the importance of balancing model design and data quality for achieving efficient and generalizable zero-shot depth estimation. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.