ChatPaper.aiChatPaper

Depth Anything V3: Ricostruzione dello Spazio Visivo da Qualsiasi Punto di Vista

Depth Anything 3: Recovering the Visual Space from Any Views

November 13, 2025
Autori: Haotong Lin, Sili Chen, Junhao Liew, Donny Y. Chen, Zhenyu Li, Guang Shi, Jiashi Feng, Bingyi Kang
cs.AI

Abstract

Presentiamo Depth Anything 3 (DA3), un modello che predice una geometria spazialmente coerente da un numero arbitrario di input visivi, con o senza pose delle camere note. Nel perseguimento di una modellazione minimale, DA3 fornisce due intuizioni chiave: un singolo transformer semplice (ad esempio, un encoder DINO standard) è sufficiente come backbone senza specializzazioni architetturali, e un singolo obiettivo di predizione depth-ray (raggio di profondità) elimina la necessità di un complesso apprendimento multi-task. Attraverso il nostro paradigma di addestramento teacher-student, il modello raggiunge un livello di dettaglio e generalizzazione pari a Depth Anything 2 (DA2). Istituiamo un nuovo benchmark per la geometria visiva che copre la stima della posa della camera, la geometria da qualsiasi vista e il rendering visivo. Su questo benchmark, DA3 stabilisce un nuovo stato dell'arte in tutti i compiti, superando il precedente SOTA VGGT in media del 44,3% nell'accuratezza della stima della posa della camera e del 25,1% nell'accuratezza geometrica. Inoltre, supera DA2 nella stima della profondità monoculare. Tutti i modelli sono addestrati esclusivamente su dataset accademici pubblici.
English
We present Depth Anything 3 (DA3), a model that predicts spatially consistent geometry from an arbitrary number of visual inputs, with or without known camera poses. In pursuit of minimal modeling, DA3 yields two key insights: a single plain transformer (e.g., vanilla DINO encoder) is sufficient as a backbone without architectural specialization, and a singular depth-ray prediction target obviates the need for complex multi-task learning. Through our teacher-student training paradigm, the model achieves a level of detail and generalization on par with Depth Anything 2 (DA2). We establish a new visual geometry benchmark covering camera pose estimation, any-view geometry and visual rendering. On this benchmark, DA3 sets a new state-of-the-art across all tasks, surpassing prior SOTA VGGT by an average of 44.3% in camera pose accuracy and 25.1% in geometric accuracy. Moreover, it outperforms DA2 in monocular depth estimation. All models are trained exclusively on public academic datasets.
PDF905December 1, 2025