Depth Anything 3: Recuperação do Espaço Visual a Partir de Qualquer Perspectiva

Resumo

Apresentamos o Depth Anything 3 (DA3), um modelo que prevê geometria espacialmente consistente a partir de um número arbitrário de entradas visuais, com ou sem poses de câmera conhecidas. Em busca de uma modelagem mínima, o DA3 oferece dois insights fundamentais: um único transformer simples (por exemplo, um codificador DINO padrão) é suficiente como backbone sem especialização arquitetônica, e um único alvo de predição de raio de profundidade dispensa a necessidade de aprendizado multitarefa complexo. Através do nosso paradigma de treinamento professor-aluno, o modelo atinge um nível de detalhe e generalização equivalente ao Depth Anything 2 (DA2). Estabelecemos um novo benchmark de geometria visual abrangendo estimativa de pose de câmera, geometria de visão arbitrária e renderização visual. Neste benchmark, o DA3 estabelece um novo estado da arte em todas as tarefas, superando o SOTA anterior VGGT em uma média de 44,3% na precisão da pose da câmera e 25,1% na precisão geométrica. Além disso, supera o DA2 na estimativa de profundidade monocular. Todos os modelos são treinados exclusivamente em conjuntos de dados acadêmicos públicos.

English

We present Depth Anything 3 (DA3), a model that predicts spatially consistent geometry from an arbitrary number of visual inputs, with or without known camera poses. In pursuit of minimal modeling, DA3 yields two key insights: a single plain transformer (e.g., vanilla DINO encoder) is sufficient as a backbone without architectural specialization, and a singular depth-ray prediction target obviates the need for complex multi-task learning. Through our teacher-student training paradigm, the model achieves a level of detail and generalization on par with Depth Anything 2 (DA2). We establish a new visual geometry benchmark covering camera pose estimation, any-view geometry and visual rendering. On this benchmark, DA3 sets a new state-of-the-art across all tasks, surpassing prior SOTA VGGT by an average of 44.3% in camera pose accuracy and 25.1% in geometric accuracy. Moreover, it outperforms DA2 in monocular depth estimation. All models are trained exclusively on public academic datasets.

Depth Anything 3: Recuperação do Espaço Visual a Partir de Qualquer Perspectiva

Depth Anything 3: Recovering the Visual Space from Any Views

Resumo

Support