DINOv3
DINOv3
August 13, 2025
Autores: Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI
Resumen
El aprendizaje auto-supervisado promete eliminar la necesidad de anotación manual de datos, permitiendo que los modelos escalen sin esfuerzo a conjuntos de datos masivos y arquitecturas más grandes. Al no estar ajustado a tareas o dominios específicos, este paradigma de entrenamiento tiene el potencial de aprender representaciones visuales a partir de fuentes diversas, que van desde imágenes naturales hasta aéreas, utilizando un único algoritmo. Este informe técnico presenta DINOv3, un hito importante hacia la realización de esta visión mediante el uso de estrategias simples pero efectivas. Primero, aprovechamos los beneficios de escalar tanto el tamaño del conjunto de datos como del modelo mediante una cuidadosa preparación, diseño y optimización de los datos. Segundo, introducimos un nuevo método llamado anclaje Gram, que aborda eficazmente el problema conocido pero no resuelto de la degradación de mapas de características densos durante largos períodos de entrenamiento. Finalmente, aplicamos estrategias post-hoc que mejoran aún más la flexibilidad de nuestros modelos con respecto a la resolución, el tamaño del modelo y la alineación con el texto. Como resultado, presentamos un modelo base de visión versátil que supera al estado del arte especializado en una amplia gama de configuraciones, sin necesidad de ajuste fino. DINOv3 produce características densas de alta calidad que logran un rendimiento excepcional en diversas tareas de visión, superando significativamente a los modelos base auto-supervisados y débilmente supervisados anteriores. También compartimos la suite de modelos de visión DINOv3, diseñada para avanzar el estado del arte en un amplio espectro de tareas y datos, ofreciendo soluciones escalables para diversas restricciones de recursos y escenarios de implementación.
English
Self-supervised learning holds the promise of eliminating the need for manual
data annotation, enabling models to scale effortlessly to massive datasets and
larger architectures. By not being tailored to specific tasks or domains, this
training paradigm has the potential to learn visual representations from
diverse sources, ranging from natural to aerial images -- using a single
algorithm. This technical report introduces DINOv3, a major milestone toward
realizing this vision by leveraging simple yet effective strategies. First, we
leverage the benefit of scaling both dataset and model size by careful data
preparation, design, and optimization. Second, we introduce a new method called
Gram anchoring, which effectively addresses the known yet unsolved issue of
dense feature maps degrading during long training schedules. Finally, we apply
post-hoc strategies that further enhance our models' flexibility with respect
to resolution, model size, and alignment with text. As a result, we present a
versatile vision foundation model that outperforms the specialized state of the
art across a broad range of settings, without fine-tuning. DINOv3 produces
high-quality dense features that achieve outstanding performance on various
vision tasks, significantly surpassing previous self- and weakly-supervised
foundation models. We also share the DINOv3 suite of vision models, designed to
advance the state of the art on a wide spectrum of tasks and data by providing
scalable solutions for diverse resource constraints and deployment scenarios.