リアルタイム物体検出とDINOv3の融合
Real-Time Object Detection Meets DINOv3
September 25, 2025
著者: Shihua Huang, Yongjie Hou, Longfei Liu, Xuanlong Yu, Xi Shen
cs.AI
要旨
Dense O2OとMALのシンプルさと有効性を活かし、DEIMはリアルタイムDETRの主流トレーニングフレームワークとなり、YOLOシリーズを大幅に上回る性能を発揮しています。本研究では、DINOv3の特徴を組み込むことでDEIMv2を拡張しました。DEIMv2はXからAttoまでの8つのモデルサイズをカバーし、GPU、エッジ、モバイル展開に対応しています。X、L、M、Sのバリアントでは、DINOv3で事前学習または蒸留されたバックボーンを採用し、Spatial Tuning Adapter(STA)を導入しました。STAは、DINOv3の単一スケール出力を効率的にマルチスケール特徴に変換し、強力なセマンティクスに細粒度の詳細を補完して検出性能を向上させます。超軽量モデル(Nano、Pico、Femto、Atto)では、HGNetv2を深度と幅のプルーニングで適用し、厳しいリソース制約に対応します。簡素化されたデコーダとアップグレードされたDense O2Oとともに、この統一設計により、DEIMv2は多様なシナリオで優れた性能とコストのトレードオフを実現し、新たな最先端の結果を確立しました。特に、最大モデルであるDEIMv2-Xは、5030万パラメータで57.8 APを達成し、6000万パラメータ以上を必要とする従来のXスケールモデル(56.5 AP)を上回りました。コンパクトサイドでは、DEIMv2-Sが初めて1000万パラメータ未満(971万)でCOCOにおける50 APのマイルストーンを超え、50.9 APを達成しました。さらに、超軽量のDEIMv2-Picoは、わずか150万パラメータで38.5 APを実現し、YOLOv10-Nano(230万パラメータ)と同等の性能を約50%少ないパラメータで達成しました。コードと事前学習済みモデルはhttps://github.com/Intellindust-AI-Lab/DEIMv2で公開されています。
English
Benefiting from the simplicity and effectiveness of Dense O2O and MAL, DEIM
has become the mainstream training framework for real-time DETRs, significantly
outperforming the YOLO series. In this work, we extend it with DINOv3 features,
resulting in DEIMv2. DEIMv2 spans eight model sizes from X to Atto, covering
GPU, edge, and mobile deployment. For the X, L, M, and S variants, we adopt
DINOv3-pretrained or distilled backbones and introduce a Spatial Tuning Adapter
(STA), which efficiently converts DINOv3's single-scale output into multi-scale
features and complements strong semantics with fine-grained details to enhance
detection. For ultra-lightweight models (Nano, Pico, Femto, and Atto), we
employ HGNetv2 with depth and width pruning to meet strict resource budgets.
Together with a simplified decoder and an upgraded Dense O2O, this unified
design enables DEIMv2 to achieve a superior performance-cost trade-off across
diverse scenarios, establishing new state-of-the-art results. Notably, our
largest model, DEIMv2-X, achieves 57.8 AP with only 50.3 million parameters,
surpassing prior X-scale models that require over 60 million parameters for
just 56.5 AP. On the compact side, DEIMv2-S is the first sub-10 million model
(9.71 million) to exceed the 50 AP milestone on COCO, reaching 50.9 AP. Even
the ultra-lightweight DEIMv2-Pico, with just 1.5 million parameters, delivers
38.5 AP, matching YOLOv10-Nano (2.3 million) with around 50 percent fewer
parameters. Our code and pre-trained models are available at
https://github.com/Intellindust-AI-Lab/DEIMv2