ChatPaper.aiChatPaper

Depth Anything 3: Восстановление визуального пространства из любого ракурса

Depth Anything 3: Recovering the Visual Space from Any Views

November 13, 2025
Авторы: Haotong Lin, Sili Chen, Junhao Liew, Donny Y. Chen, Zhenyu Li, Guang Shi, Jiashi Feng, Bingyi Kang
cs.AI

Аннотация

Мы представляем Depth Anything 3 (DA3) — модель, которая предсказывает пространственно согласованную геометрию из произвольного числа визуальных входных данных с известными или неизвестными позами камер. В стремлении к минимализму моделирования DA3 дает два ключевых вывода: в качестве основы достаточно одного простого трансформера (например, ванильного DINO-энкодера) без архитектурной специализации, а единая цель предсказания глубины по лучу устраняет необходимость в сложном многозадачном обучении. Благодаря нашей парадигме обучения «учитель-ученик» модель достигает уровня детализации и обобщения, сопоставимого с Depth Anything 2 (DA2). Мы создали новый бенчмарк для оценки визуальной геометрии, охватывающий оценку позы камеры, геометрию для произвольных ракурсов и визуальный рендеринг. На этом бенчмарке DA3 устанавливает новое состояние искусства по всем задачам, превосходя предыдущий SOTA метод VGGT в среднем на 44,3% по точности определения позы камеры и на 25,1% по геометрической точности. Более того, она превосходит DA2 в монокулярном оценивании глубины. Все модели обучены исключительно на общедоступных академических наборах данных.
English
We present Depth Anything 3 (DA3), a model that predicts spatially consistent geometry from an arbitrary number of visual inputs, with or without known camera poses. In pursuit of minimal modeling, DA3 yields two key insights: a single plain transformer (e.g., vanilla DINO encoder) is sufficient as a backbone without architectural specialization, and a singular depth-ray prediction target obviates the need for complex multi-task learning. Through our teacher-student training paradigm, the model achieves a level of detail and generalization on par with Depth Anything 2 (DA2). We establish a new visual geometry benchmark covering camera pose estimation, any-view geometry and visual rendering. On this benchmark, DA3 sets a new state-of-the-art across all tasks, surpassing prior SOTA VGGT by an average of 44.3% in camera pose accuracy and 25.1% in geometric accuracy. Moreover, it outperforms DA2 in monocular depth estimation. All models are trained exclusively on public academic datasets.
PDF905December 1, 2025