DINOv3

Abstract

L'apprendimento auto-supervisionato promette di eliminare la necessità di annotazione manuale dei dati, consentendo ai modelli di scalare senza sforzo su dataset massicci e architetture più grandi. Non essendo vincolato a compiti o domini specifici, questo paradigma di addestramento ha il potenziale di apprendere rappresentazioni visive da fonti diversificate, che vanno dalle immagini naturali a quelle aeree, utilizzando un singolo algoritmo. Questo rapporto tecnico introduce DINOv3, una pietra miliare significativa verso la realizzazione di questa visione, sfruttando strategie semplici ma efficaci. In primo luogo, sfruttiamo i vantaggi della scalabilità sia del dataset che delle dimensioni del modello attraverso un'attenta preparazione, progettazione e ottimizzazione dei dati. In secondo luogo, introduciamo un nuovo metodo chiamato ancoraggio Gram, che affronta efficacemente il problema noto ma irrisolto del degrado delle mappe di feature dense durante lunghi cicli di addestramento. Infine, applichiamo strategie post-hoc che migliorano ulteriormente la flessibilità dei nostri modelli rispetto alla risoluzione, alle dimensioni del modello e all'allineamento con il testo. Di conseguenza, presentiamo un modello di base visivo versatile che supera lo stato dell'arte specializzato in un'ampia gamma di contesti, senza necessità di fine-tuning. DINOv3 produce feature dense di alta qualità che raggiungono prestazioni eccezionali in vari compiti visivi, superando significativamente i precedenti modelli di base auto-supervisionati e debolmente supervisionati. Condividiamo inoltre la suite di modelli visivi DINOv3, progettata per far avanzare lo stato dell'arte su un ampio spettro di compiti e dati, fornendo soluzioni scalabili per vincoli di risorse e scenari di deployment diversificati.

English

Self-supervised learning holds the promise of eliminating the need for manual data annotation, enabling models to scale effortlessly to massive datasets and larger architectures. By not being tailored to specific tasks or domains, this training paradigm has the potential to learn visual representations from diverse sources, ranging from natural to aerial images -- using a single algorithm. This technical report introduces DINOv3, a major milestone toward realizing this vision by leveraging simple yet effective strategies. First, we leverage the benefit of scaling both dataset and model size by careful data preparation, design, and optimization. Second, we introduce a new method called Gram anchoring, which effectively addresses the known yet unsolved issue of dense feature maps degrading during long training schedules. Finally, we apply post-hoc strategies that further enhance our models' flexibility with respect to resolution, model size, and alignment with text. As a result, we present a versatile vision foundation model that outperforms the specialized state of the art across a broad range of settings, without fine-tuning. DINOv3 produces high-quality dense features that achieve outstanding performance on various vision tasks, significantly surpassing previous self- and weakly-supervised foundation models. We also share the DINOv3 suite of vision models, designed to advance the state of the art on a wide spectrum of tasks and data by providing scalable solutions for diverse resource constraints and deployment scenarios.