ChatPaper.aiChatPaper

Depth Anything 3: Recuperación del Espacio Visual desde Cualquier Perspectiva

Depth Anything 3: Recovering the Visual Space from Any Views

November 13, 2025
Autores: Haotong Lin, Sili Chen, Junhao Liew, Donny Y. Chen, Zhenyu Li, Guang Shi, Jiashi Feng, Bingyi Kang
cs.AI

Resumen

Presentamos Depth Anything 3 (DA3), un modelo que predice una geometría espacialmente consistente a partir de un número arbitrario de entradas visuales, con o sin poses de cámara conocidas. En pos de una modelización mínima, DA3 aporta dos ideas clave: un único transformer básico (por ejemplo, un codificador DINO estándar) es suficiente como columna vertebral sin especialización arquitectónica, y un único objetivo de predicción de rayos de profundidad elimina la necesidad de un aprendizaje multitarea complejo. Mediante nuestro paradigma de entrenamiento profesor-alumno, el modelo alcanza un nivel de detalle y generalización a la par de Depth Anything 2 (DA2). Establecemos un nuevo benchmark de geometría visual que abarca la estimación de la pose de la cámara, la geometría desde cualquier vista y el renderizado visual. En este benchmark, DA3 establece un nuevo estado del arte en todas las tareas, superando al anterior SOTA VGGT en un promedio del 44.3% en precisión de pose de cámara y del 25.1% en precisión geométrica. Además, supera a DA2 en la estimación de profundidad monocular. Todos los modelos se entrenan exclusivamente con conjuntos de datos académicos públicos.
English
We present Depth Anything 3 (DA3), a model that predicts spatially consistent geometry from an arbitrary number of visual inputs, with or without known camera poses. In pursuit of minimal modeling, DA3 yields two key insights: a single plain transformer (e.g., vanilla DINO encoder) is sufficient as a backbone without architectural specialization, and a singular depth-ray prediction target obviates the need for complex multi-task learning. Through our teacher-student training paradigm, the model achieves a level of detail and generalization on par with Depth Anything 2 (DA2). We establish a new visual geometry benchmark covering camera pose estimation, any-view geometry and visual rendering. On this benchmark, DA3 sets a new state-of-the-art across all tasks, surpassing prior SOTA VGGT by an average of 44.3% in camera pose accuracy and 25.1% in geometric accuracy. Moreover, it outperforms DA2 in monocular depth estimation. All models are trained exclusively on public academic datasets.
PDF905December 1, 2025