DINOv3
DINOv3
August 13, 2025
著者: Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, Piotr Bojanowski
cs.AI
要旨
自己教師あり学習は、手動でのデータアノテーションの必要性をなくし、モデルが大規模なデータセットやより大きなアーキテクチャに容易にスケールすることを可能にするという約束を抱いています。特定のタスクやドメインに特化していないため、この学習パラダイムは、自然画像から航空画像まで多様なソースから視覚表現を学習する可能性を秘めており、単一のアルゴリズムを使用して実現できます。本技術レポートでは、このビジョンを実現するための重要なマイルストーンであるDINOv3を紹介します。まず、データセットとモデルサイズのスケーリングの利点を活かすために、慎重なデータ準備、設計、最適化を行います。次に、長期間のトレーニングスケジュール中に密な特徴マップが劣化するという既知だが未解決の問題を効果的に解決する新しい手法であるGramアンカリングを導入します。最後に、解像度、モデルサイズ、テキストとの整合性に関してモデルの柔軟性をさらに高めるポストホック戦略を適用します。その結果、ファインチューニングなしで、幅広い設定において専門的な最新技術を凌ぐ汎用性の高い視覚基盤モデルを提示します。DINOv3は、高品質な密な特徴を生成し、さまざまな視覚タスクで卓越した性能を達成し、以前の自己教師ありおよび弱教師あり基盤モデルを大幅に上回ります。また、多様なリソース制約や展開シナリオに対応するスケーラブルなソリューションを提供することで、幅広いタスクとデータにおいて最新技術を進歩させることを目的としたDINOv3の視覚モデルスイートも共有します。
English
Self-supervised learning holds the promise of eliminating the need for manual
data annotation, enabling models to scale effortlessly to massive datasets and
larger architectures. By not being tailored to specific tasks or domains, this
training paradigm has the potential to learn visual representations from
diverse sources, ranging from natural to aerial images -- using a single
algorithm. This technical report introduces DINOv3, a major milestone toward
realizing this vision by leveraging simple yet effective strategies. First, we
leverage the benefit of scaling both dataset and model size by careful data
preparation, design, and optimization. Second, we introduce a new method called
Gram anchoring, which effectively addresses the known yet unsolved issue of
dense feature maps degrading during long training schedules. Finally, we apply
post-hoc strategies that further enhance our models' flexibility with respect
to resolution, model size, and alignment with text. As a result, we present a
versatile vision foundation model that outperforms the specialized state of the
art across a broad range of settings, without fine-tuning. DINOv3 produces
high-quality dense features that achieve outstanding performance on various
vision tasks, significantly surpassing previous self- and weakly-supervised
foundation models. We also share the DINOv3 suite of vision models, designed to
advance the state of the art on a wide spectrum of tasks and data by providing
scalable solutions for diverse resource constraints and deployment scenarios.