DINOv3
DINOv3
August 13, 2025
Auteurs: Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI
Samenvatting
Zelfsupervised leren belooft de noodzaak voor handmatige data-annotatie te elimineren, waardoor modellen moeiteloos kunnen schalen naar enorme datasets en grotere architecturen. Doordat deze trainingsparadigma niet is afgestemd op specifieke taken of domeinen, heeft het de potentie om visuele representaties te leren uit diverse bronnen, variërend van natuurlijke tot luchtfoto's -- met behulp van een enkel algoritme. Dit technische rapport introduceert DINOv3, een belangrijke mijlpaal in het realiseren van deze visie door eenvoudige maar effectieve strategieën te benutten. Ten eerste profiteren we van het schalen van zowel de dataset- als modelgrootte door zorgvuldige data-voorbereiding, ontwerp en optimalisatie. Ten tweede introduceren we een nieuwe methode genaamd Gram-verankering, die effectief het bekende maar onopgeloste probleem aanpakt van dichte kenmerkkaarten die tijdens lange trainingsschema's achteruitgaan. Tot slot passen we post-hoc strategieën toe die de flexibiliteit van onze modellen verder verbeteren met betrekking tot resolutie, modelgrootte en afstemming met tekst. Als resultaat presenteren we een veelzijdig visueel basis model dat de gespecialiseerde state-of-the-art overtreft in een breed scala van instellingen, zonder fine-tuning. DINOv3 produceert hoogwaardige dichte kenmerken die uitstekende prestaties leveren op diverse visuele taken, en daarbij eerdere zelf- en zwakgesuperviseerde basis modellen aanzienlijk overtreft. We delen ook de DINOv3-suite van visuele modellen, ontworpen om de state-of-the-art te bevorderen op een breed spectrum van taken en data door schaalbare oplossingen te bieden voor diverse resourcebeperkingen en implementatiescenario's.
English
Self-supervised learning holds the promise of eliminating the need for manual
data annotation, enabling models to scale effortlessly to massive datasets and
larger architectures. By not being tailored to specific tasks or domains, this
training paradigm has the potential to learn visual representations from
diverse sources, ranging from natural to aerial images -- using a single
algorithm. This technical report introduces DINOv3, a major milestone toward
realizing this vision by leveraging simple yet effective strategies. First, we
leverage the benefit of scaling both dataset and model size by careful data
preparation, design, and optimization. Second, we introduce a new method called
Gram anchoring, which effectively addresses the known yet unsolved issue of
dense feature maps degrading during long training schedules. Finally, we apply
post-hoc strategies that further enhance our models' flexibility with respect
to resolution, model size, and alignment with text. As a result, we present a
versatile vision foundation model that outperforms the specialized state of the
art across a broad range of settings, without fine-tuning. DINOv3 produces
high-quality dense features that achieve outstanding performance on various
vision tasks, significantly surpassing previous self- and weakly-supervised
foundation models. We also share the DINOv3 suite of vision models, designed to
advance the state of the art on a wide spectrum of tasks and data by providing
scalable solutions for diverse resource constraints and deployment scenarios.