Depth Anything 3: Het Visuele Ruimte Herstellen vanuit Elk Gezichtspunt
Depth Anything 3: Recovering the Visual Space from Any Views
November 13, 2025
Auteurs: Haotong Lin, Sili Chen, Junhao Liew, Donny Y. Chen, Zhenyu Li, Guang Shi, Jiashi Feng, Bingyi Kang
cs.AI
Samenvatting
Wij presenteren Depth Anything 3 (DA3), een model dat ruimtelijk consistente geometrie voorspelt uit een willekeurig aantal visuele invoeren, met of zonder bekende cameraposities. In de zoektocht naar minimale modellering levert DA3 twee cruciale inzichten op: een enkele standaard transformer (bijvoorbeeld een vanilla DINO-encoder) is voldoende als backbone zonder architecturale specialisatie, en een enkelvoudig diepte-straal voorspeldoel maakt complexe multi-task learning overbodig. Door ons teacher-student trainingsparadigma bereikt het model een niveau van detail en generalisatie dat gelijk is aan Depth Anything 2 (DA2). Wij stellen een nieuwe visuele geometriebenchmark op die camerapositie-schatting, geometrie vanuit willekeurige gezichtspunten en visueel renderen omvat. Op deze benchmark vestigt DA3 een nieuwe state-of-the-art voor alle taken, waarbij het de vorige SOTA VGGT gemiddeld met 44,3% overtrof in camerapositienauwkeurigheid en met 25,1% in geometrische nauwkeurigheid. Bovendien presteert het beter dan DA2 in monocular depth estimation. Alle modellen zijn uitsluitend getraind op openbare academische datasets.
English
We present Depth Anything 3 (DA3), a model that predicts spatially consistent geometry from an arbitrary number of visual inputs, with or without known camera poses. In pursuit of minimal modeling, DA3 yields two key insights: a single plain transformer (e.g., vanilla DINO encoder) is sufficient as a backbone without architectural specialization, and a singular depth-ray prediction target obviates the need for complex multi-task learning. Through our teacher-student training paradigm, the model achieves a level of detail and generalization on par with Depth Anything 2 (DA2). We establish a new visual geometry benchmark covering camera pose estimation, any-view geometry and visual rendering. On this benchmark, DA3 sets a new state-of-the-art across all tasks, surpassing prior SOTA VGGT by an average of 44.3% in camera pose accuracy and 25.1% in geometric accuracy. Moreover, it outperforms DA2 in monocular depth estimation. All models are trained exclusively on public academic datasets.