Depth Anything 3: 모든 시점에서 시각 공간 복원하기
Depth Anything 3: Recovering the Visual Space from Any Views
November 13, 2025
저자: Haotong Lin, Sili Chen, Junhao Liew, Donny Y. Chen, Zhenyu Li, Guang Shi, Jiashi Feng, Bingyi Kang
cs.AI
초록
Depth Anything 3(DA3)를 소개합니다. 이 모델은 알려진 카메라 포즈 유무와 관계없이 임의의 수의 시각적 입력으로부터 공간적으로 일관된 기하구조를 예측합니다. 최소한의 모델링을 지향하는 DA3는 두 가지 핵심 통찰을 제공합니다: 첫째, 구조적 특수화 없이 단일 일반 트랜스포머(예: 기본 DINO 인코더)만으로도 백본으로 충분하며, 둘째 단일 깊이-레이 예측 목표만으로 복잡한 다중 작업 학습이 필요 없습니다. 저희의 교사-학생 훈련 패러다임을 통해 이 모델은 Depth Anything 2(DA2)에 버금가는 수준의 디테일과 일반화 성능을 달성했습니다. 또한 카메라 포즈 추정, 임의 시점 기하구조 및 시각적 렌더링을 포괄하는 새로운 시각 기하구조 벤치마크를 구축했습니다. 이 벤치마크에서 DA3는 모든 작업에서 새로운 최첨단 기술을 수립하며, 기존 SOTA인 VGGT 대비 카메라 포즈 정확도 평균 44.3%, 기하학적 정확도 평균 25.1%를 크게 앞질렀습니다. 더 나아가 단안 깊이 추정에서도 DA2를 능가하는 성능을 보입니다. 모든 모델은 공개된 학술 데이터셋만으로 독점적으로 훈련되었습니다.
English
We present Depth Anything 3 (DA3), a model that predicts spatially consistent geometry from an arbitrary number of visual inputs, with or without known camera poses. In pursuit of minimal modeling, DA3 yields two key insights: a single plain transformer (e.g., vanilla DINO encoder) is sufficient as a backbone without architectural specialization, and a singular depth-ray prediction target obviates the need for complex multi-task learning. Through our teacher-student training paradigm, the model achieves a level of detail and generalization on par with Depth Anything 2 (DA2). We establish a new visual geometry benchmark covering camera pose estimation, any-view geometry and visual rendering. On this benchmark, DA3 sets a new state-of-the-art across all tasks, surpassing prior SOTA VGGT by an average of 44.3% in camera pose accuracy and 25.1% in geometric accuracy. Moreover, it outperforms DA2 in monocular depth estimation. All models are trained exclusively on public academic datasets.