ChatPaper.aiChatPaper

DINOv3

DINOv3

August 13, 2025
papers.authors: Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI

papers.abstract

L'apprentissage auto-supervisé promet d'éliminer le besoin d'annotation manuelle des données, permettant aux modèles de s'adapter sans effort à des ensembles de données massifs et à des architectures plus grandes. En n'étant pas spécifiquement adapté à des tâches ou domaines particuliers, ce paradigme d'entraînement a le potentiel d'apprendre des représentations visuelles à partir de sources diverses, allant des images naturelles aux images aériennes -- en utilisant un seul algorithme. Ce rapport technique présente DINOv3, une étape majeure vers la réalisation de cette vision en exploitant des stratégies simples mais efficaces. Premièrement, nous tirons parti des avantages de la mise à l'échelle de la taille des ensembles de données et des modèles grâce à une préparation, une conception et une optimisation minutieuses des données. Deuxièmement, nous introduisons une nouvelle méthode appelée ancrage de Gram, qui résout efficacement le problème connu mais non résolu de la dégradation des cartes de caractéristiques denses lors de longues périodes d'entraînement. Enfin, nous appliquons des stratégies post-hoc qui améliorent encore la flexibilité de nos modèles en termes de résolution, de taille de modèle et d'alignement avec le texte. En conséquence, nous présentons un modèle de fondation visuel polyvalent qui surpasse l'état de l'art spécialisé dans un large éventail de configurations, sans ajustement fin. DINOv3 produit des caractéristiques denses de haute qualité qui obtiennent des performances exceptionnelles sur diverses tâches visuelles, surpassant significativement les modèles de fondation auto-supervisés et faiblement supervisés précédents. Nous partageons également la suite de modèles visuels DINOv3, conçue pour faire progresser l'état de l'art sur un large spectre de tâches et de données en fournissant des solutions évolutives pour diverses contraintes de ressources et scénarios de déploiement.
English
Self-supervised learning holds the promise of eliminating the need for manual data annotation, enabling models to scale effortlessly to massive datasets and larger architectures. By not being tailored to specific tasks or domains, this training paradigm has the potential to learn visual representations from diverse sources, ranging from natural to aerial images -- using a single algorithm. This technical report introduces DINOv3, a major milestone toward realizing this vision by leveraging simple yet effective strategies. First, we leverage the benefit of scaling both dataset and model size by careful data preparation, design, and optimization. Second, we introduce a new method called Gram anchoring, which effectively addresses the known yet unsolved issue of dense feature maps degrading during long training schedules. Finally, we apply post-hoc strategies that further enhance our models' flexibility with respect to resolution, model size, and alignment with text. As a result, we present a versatile vision foundation model that outperforms the specialized state of the art across a broad range of settings, without fine-tuning. DINOv3 produces high-quality dense features that achieve outstanding performance on various vision tasks, significantly surpassing previous self- and weakly-supervised foundation models. We also share the DINOv3 suite of vision models, designed to advance the state of the art on a wide spectrum of tasks and data by providing scalable solutions for diverse resource constraints and deployment scenarios.
PDF1172August 18, 2025