Depth Anything 3: Die Wiederherstellung des visuellen Raums aus beliebigen Blickwinkeln
Depth Anything 3: Recovering the Visual Space from Any Views
November 13, 2025
papers.authors: Haotong Lin, Sili Chen, Junhao Liew, Donny Y. Chen, Zhenyu Li, Guang Shi, Jiashi Feng, Bingyi Kang
cs.AI
papers.abstract
Wir stellen Depth Anything 3 (DA3) vor, ein Modell, das aus einer beliebigen Anzahl visueller Eingaben – mit oder ohne bekannte Kameraposen – räumlich konsistente Geometrie vorhersagt. Im Streben nach minimaler Modellierung liefert DA3 zwei zentrale Erkenntnisse: Ein einfacher Transformer (z. B. ein vanilla DINO-Encoder) ist als Backbone ohne architektonische Spezialisierung ausreichend, und ein singuläres Depth-Ray-Vorhersageziel macht komplexes Multi-Task-Lernen überflüssig. Durch unser Teacher-Student-Trainingsparadigma erreicht das Modell ein Maß an Detailtreue und Generalisierung, das mit Depth Anything 2 (DA2) vergleichbar ist. Wir etablieren einen neuen Benchmark für visuelle Geometrie, der Kameraposenschätzung, Geometrie aus beliebigen Blickwinkeln und visuelles Rendering abdeckt. Auf diesem Benchmark setzt DA3 einen neuen State-of-the-Art über alle Aufgaben hinweg und übertrifft den bisherigen SOTA VGGT im Durchschnitt um 44,3 % bei der Kameraposengenauigkeit und um 25,1 % bei der geometrischen Genauigkeit. Darüber hinaus übertrifft es DA2 in der monokularen Tiefenschätzung. Alle Modelle werden ausschließlich auf öffentlichen akademischen Datensätzen trainiert.
English
We present Depth Anything 3 (DA3), a model that predicts spatially consistent geometry from an arbitrary number of visual inputs, with or without known camera poses. In pursuit of minimal modeling, DA3 yields two key insights: a single plain transformer (e.g., vanilla DINO encoder) is sufficient as a backbone without architectural specialization, and a singular depth-ray prediction target obviates the need for complex multi-task learning. Through our teacher-student training paradigm, the model achieves a level of detail and generalization on par with Depth Anything 2 (DA2). We establish a new visual geometry benchmark covering camera pose estimation, any-view geometry and visual rendering. On this benchmark, DA3 sets a new state-of-the-art across all tasks, surpassing prior SOTA VGGT by an average of 44.3% in camera pose accuracy and 25.1% in geometric accuracy. Moreover, it outperforms DA2 in monocular depth estimation. All models are trained exclusively on public academic datasets.