Depth Anything 3: 任意の視点からの視覚空間の復元
Depth Anything 3: Recovering the Visual Space from Any Views
November 13, 2025
著者: Haotong Lin, Sili Chen, Junhao Liew, Donny Y. Chen, Zhenyu Li, Guang Shi, Jiashi Feng, Bingyi Kang
cs.AI
要旨
我々はDepth Anything 3 (DA3)を提案する。これは、カメラ姿勢が既知・未知を問わず、任意の数の視覚入力から空間的一貫性のある幾何学情報を予測するモデルである。最小限のモデリングを追求する中で、DA3は二つの重要な知見をもたらした:単一のプレーンなトランスフォーマー(例:バニラDINOエンコーダ)がアーキテクチャの特殊化なしにバックボーンとして十分機能すること、そして単一の深度光線予測ターゲットが複雑なマルチタスク学習を不要にすることである。教師-生徒学習パラダイムを通じて、本モデルはDepth Anything 2 (DA2)と同等の詳細度と汎化性能を達成する。我々はカメラ姿勢推定、任意視点幾何学、視覚的レンダリングを網羅する新しい視覚幾何学ベンチマークを確立した。このベンチマークにおいて、DA3は全タスクで新たなstate-of-the-artを樹立し、従来のSOTAであるVGGTをカメラ姿勢精度で平均44.3%、幾何学精度で25.1%上回った。さらに、単眼深度推定においてもDA2を凌駕する。全てのモデルは公開学術データセットのみで学習されている。
English
We present Depth Anything 3 (DA3), a model that predicts spatially consistent geometry from an arbitrary number of visual inputs, with or without known camera poses. In pursuit of minimal modeling, DA3 yields two key insights: a single plain transformer (e.g., vanilla DINO encoder) is sufficient as a backbone without architectural specialization, and a singular depth-ray prediction target obviates the need for complex multi-task learning. Through our teacher-student training paradigm, the model achieves a level of detail and generalization on par with Depth Anything 2 (DA2). We establish a new visual geometry benchmark covering camera pose estimation, any-view geometry and visual rendering. On this benchmark, DA3 sets a new state-of-the-art across all tasks, surpassing prior SOTA VGGT by an average of 44.3% in camera pose accuracy and 25.1% in geometric accuracy. Moreover, it outperforms DA2 in monocular depth estimation. All models are trained exclusively on public academic datasets.