ChatPaper.aiChatPaper

DINOv3

DINOv3

August 13, 2025
papers.authors: Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI

papers.abstract

Self-supervised Learning verspricht, den Bedarf an manueller Datenannotation zu eliminieren und ermöglicht es Modellen, nahtlos auf massive Datensätze und größere Architekturen zu skalieren. Da diese Trainingsmethode nicht auf spezifische Aufgaben oder Domänen zugeschnitten ist, hat sie das Potenzial, visuelle Repräsentationen aus diversen Quellen zu lernen – von natürlichen bis hin zu Luftbildern – und dies mit einem einzigen Algorithmus. Dieser technische Bericht stellt DINOv3 vor, einen bedeutenden Meilenstein auf dem Weg zur Verwirklichung dieser Vision, der durch einfache, aber effektive Strategien erreicht wird. Zunächst nutzen wir die Vorteile der Skalierung von Datensatz- und Modellgröße durch sorgfältige Datenvorbereitung, -gestaltung und -optimierung. Zweitens führen wir eine neue Methode namens Gram-Ankerung ein, die das bekannte, aber bisher ungelöste Problem der Verschlechterung dichter Feature-Maps während langer Trainingszeiträume effektiv adressiert. Schließlich wenden wir post-hoc-Strategien an, die die Flexibilität unserer Modelle in Bezug auf Auflösung, Modellgröße und Textausrichtung weiter verbessern. Als Ergebnis präsentieren wir ein vielseitiges Vision-Foundation-Modell, das den spezialisierten State-of-the-Art in einer breiten Palette von Anwendungen ohne Feinabstimmung übertrifft. DINOv3 erzeugt hochwertige dichte Features, die herausragende Leistungen bei verschiedenen Vision-Aufgaben erzielen und damit frühere selbst- und schwach überwachte Foundation-Modelle deutlich übertreffen. Wir stellen auch die DINOv3-Suite von Vision-Modellen zur Verfügung, die darauf abzielt, den State-of-the-Art in einem breiten Spektrum von Aufgaben und Daten voranzutreiben, indem sie skalierbare Lösungen für diverse Ressourcenbeschränkungen und Einsatzszenarien bietet.
English
Self-supervised learning holds the promise of eliminating the need for manual data annotation, enabling models to scale effortlessly to massive datasets and larger architectures. By not being tailored to specific tasks or domains, this training paradigm has the potential to learn visual representations from diverse sources, ranging from natural to aerial images -- using a single algorithm. This technical report introduces DINOv3, a major milestone toward realizing this vision by leveraging simple yet effective strategies. First, we leverage the benefit of scaling both dataset and model size by careful data preparation, design, and optimization. Second, we introduce a new method called Gram anchoring, which effectively addresses the known yet unsolved issue of dense feature maps degrading during long training schedules. Finally, we apply post-hoc strategies that further enhance our models' flexibility with respect to resolution, model size, and alignment with text. As a result, we present a versatile vision foundation model that outperforms the specialized state of the art across a broad range of settings, without fine-tuning. DINOv3 produces high-quality dense features that achieve outstanding performance on various vision tasks, significantly surpassing previous self- and weakly-supervised foundation models. We also share the DINOv3 suite of vision models, designed to advance the state of the art on a wide spectrum of tasks and data by providing scalable solutions for diverse resource constraints and deployment scenarios.
PDF1172August 18, 2025