ChatPaper.aiChatPaper

Depth Anything 3 : Reconstruction de l'espace visuel à partir de n'importe quelle vue

Depth Anything 3: Recovering the Visual Space from Any Views

November 13, 2025
papers.authors: Haotong Lin, Sili Chen, Junhao Liew, Donny Y. Chen, Zhenyu Li, Guang Shi, Jiashi Feng, Bingyi Kang
cs.AI

papers.abstract

Nous présentons Depth Anything 3 (DA3), un modèle qui prédit une géométrie spatialement cohérente à partir d'un nombre arbitraire d'entrées visuelles, avec ou sans poses de caméra connues. Dans une optique de modélisation minimale, DA3 apporte deux idées clés : un simple transformeur standard (par exemple, un encodeur DINO classique) suffit comme architecture de base sans spécialisation structurelle, et un objectif de prédiction unique basé sur des rayons de profondeur rend superflu un apprentissage multi-tâches complexe. Grâce à notre paradigme d'apprentissage par distillation (teacher-student), le modèle atteint un niveau de détail et de généralisation comparable à Depth Anything 2 (DA2). Nous établissons un nouveau benchmark de géométrie visuelle couvrant l'estimation de pose de caméra, la géométrie en vue arbitraire et le rendu visuel. Sur ce benchmark, DA3 établit un nouvel état de l'art sur toutes les tâches, surpassant l'ancien SOTA VGGT de 44,3 % en moyenne en précision de pose de caméra et de 25,1 % en précision géométrique. De plus, il surpasse DA2 en estimation de profondeur monoculaire. Tous les modèles sont entraînés exclusivement sur des ensembles de données académiques publics.
English
We present Depth Anything 3 (DA3), a model that predicts spatially consistent geometry from an arbitrary number of visual inputs, with or without known camera poses. In pursuit of minimal modeling, DA3 yields two key insights: a single plain transformer (e.g., vanilla DINO encoder) is sufficient as a backbone without architectural specialization, and a singular depth-ray prediction target obviates the need for complex multi-task learning. Through our teacher-student training paradigm, the model achieves a level of detail and generalization on par with Depth Anything 2 (DA2). We establish a new visual geometry benchmark covering camera pose estimation, any-view geometry and visual rendering. On this benchmark, DA3 sets a new state-of-the-art across all tasks, surpassing prior SOTA VGGT by an average of 44.3% in camera pose accuracy and 25.1% in geometric accuracy. Moreover, it outperforms DA2 in monocular depth estimation. All models are trained exclusively on public academic datasets.
PDF905December 1, 2025