DINOv3
DINOv3
August 13, 2025
Autori: Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI
Abstract
L'apprendimento auto-supervisionato promette di eliminare la necessità di annotazione manuale dei dati, consentendo ai modelli di scalare senza sforzo su dataset massicci e architetture più grandi. Non essendo vincolato a compiti o domini specifici, questo paradigma di addestramento ha il potenziale di apprendere rappresentazioni visive da fonti diversificate, che vanno dalle immagini naturali a quelle aeree, utilizzando un singolo algoritmo. Questo rapporto tecnico introduce DINOv3, una pietra miliare significativa verso la realizzazione di questa visione, sfruttando strategie semplici ma efficaci. In primo luogo, sfruttiamo i vantaggi della scalabilità sia del dataset che delle dimensioni del modello attraverso un'attenta preparazione, progettazione e ottimizzazione dei dati. In secondo luogo, introduciamo un nuovo metodo chiamato ancoraggio Gram, che affronta efficacemente il problema noto ma irrisolto del degrado delle mappe di feature dense durante lunghi cicli di addestramento. Infine, applichiamo strategie post-hoc che migliorano ulteriormente la flessibilità dei nostri modelli rispetto alla risoluzione, alle dimensioni del modello e all'allineamento con il testo. Di conseguenza, presentiamo un modello di base visivo versatile che supera lo stato dell'arte specializzato in un'ampia gamma di contesti, senza necessità di fine-tuning. DINOv3 produce feature dense di alta qualità che raggiungono prestazioni eccezionali in vari compiti visivi, superando significativamente i precedenti modelli di base auto-supervisionati e debolmente supervisionati. Condividiamo inoltre la suite di modelli visivi DINOv3, progettata per far avanzare lo stato dell'arte su un ampio spettro di compiti e dati, fornendo soluzioni scalabili per vincoli di risorse e scenari di deployment diversificati.
English
Self-supervised learning holds the promise of eliminating the need for manual
data annotation, enabling models to scale effortlessly to massive datasets and
larger architectures. By not being tailored to specific tasks or domains, this
training paradigm has the potential to learn visual representations from
diverse sources, ranging from natural to aerial images -- using a single
algorithm. This technical report introduces DINOv3, a major milestone toward
realizing this vision by leveraging simple yet effective strategies. First, we
leverage the benefit of scaling both dataset and model size by careful data
preparation, design, and optimization. Second, we introduce a new method called
Gram anchoring, which effectively addresses the known yet unsolved issue of
dense feature maps degrading during long training schedules. Finally, we apply
post-hoc strategies that further enhance our models' flexibility with respect
to resolution, model size, and alignment with text. As a result, we present a
versatile vision foundation model that outperforms the specialized state of the
art across a broad range of settings, without fine-tuning. DINOv3 produces
high-quality dense features that achieve outstanding performance on various
vision tasks, significantly surpassing previous self- and weakly-supervised
foundation models. We also share the DINOv3 suite of vision models, designed to
advance the state of the art on a wide spectrum of tasks and data by providing
scalable solutions for diverse resource constraints and deployment scenarios.