DINOv3
DINOv3
August 13, 2025
Авторы: Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI
Аннотация
Самообучение обещает устранить необходимость в ручной аннотации данных, позволяя моделям масштабироваться без усилий на огромные наборы данных и более крупные архитектуры. Благодаря тому, что этот подход не заточен под конкретные задачи или домены, он имеет потенциал для изучения визуальных представлений из разнообразных источников, начиная от естественных изображений и заканчивая аэроснимками, используя единый алгоритм. В этом техническом отчете представлен DINOv3 — важный шаг на пути к реализации этой цели, основанный на простых, но эффективных стратегиях. Во-первых, мы используем преимущества масштабирования как набора данных, так и размера модели за счет тщательной подготовки, проектирования и оптимизации данных. Во-вторых, мы представляем новый метод под названием Gram anchoring, который эффективно решает известную, но нерешенную проблему деградации плотных карт признаков в ходе длительных циклов обучения. Наконец, мы применяем постобработочные стратегии, которые дополнительно повышают гибкость наших моделей в отношении разрешения, размера модели и согласованности с текстом. В результате мы представляем универсальную базовую модель для задач компьютерного зрения, которая превосходит специализированные современные решения в широком спектре сценариев без необходимости тонкой настройки. DINOv3 генерирует высококачественные плотные признаки, демонстрирующие выдающуюся производительность на различных задачах компьютерного зрения, значительно опережая предыдущие модели, основанные на самообучении и слабом контроле. Мы также делимся набором моделей DINOv3, разработанных для продвижения современного уровня в широком спектре задач и данных, предоставляя масштабируемые решения для различных ограничений ресурсов и сценариев развертывания.
English
Self-supervised learning holds the promise of eliminating the need for manual
data annotation, enabling models to scale effortlessly to massive datasets and
larger architectures. By not being tailored to specific tasks or domains, this
training paradigm has the potential to learn visual representations from
diverse sources, ranging from natural to aerial images -- using a single
algorithm. This technical report introduces DINOv3, a major milestone toward
realizing this vision by leveraging simple yet effective strategies. First, we
leverage the benefit of scaling both dataset and model size by careful data
preparation, design, and optimization. Second, we introduce a new method called
Gram anchoring, which effectively addresses the known yet unsolved issue of
dense feature maps degrading during long training schedules. Finally, we apply
post-hoc strategies that further enhance our models' flexibility with respect
to resolution, model size, and alignment with text. As a result, we present a
versatile vision foundation model that outperforms the specialized state of the
art across a broad range of settings, without fine-tuning. DINOv3 produces
high-quality dense features that achieve outstanding performance on various
vision tasks, significantly surpassing previous self- and weakly-supervised
foundation models. We also share the DINOv3 suite of vision models, designed to
advance the state of the art on a wide spectrum of tasks and data by providing
scalable solutions for diverse resource constraints and deployment scenarios.