Détection d'Objets en Temps Réel Rencontre DINOv3
Real-Time Object Detection Meets DINOv3
September 25, 2025
papers.authors: Shihua Huang, Yongjie Hou, Longfei Liu, Xuanlong Yu, Xi Shen
cs.AI
papers.abstract
Tirant parti de la simplicité et de l'efficacité de Dense O2O et de MAL, DEIM
est devenu le cadre d'entraînement dominant pour les DETRs en temps réel, surpassant
significativement la série YOLO. Dans ce travail, nous l'étendons avec les fonctionnalités
de DINOv3, aboutissant à DEIMv2. DEIMv2 couvre huit tailles de modèles, de X à Atto,
adaptées aux déploiements sur GPU, en périphérie et sur mobile. Pour les variantes X, L, M
et S, nous adoptons des backbones pré-entraînés ou distillés avec DINOv3 et introduisons
un Adaptateur de Réglage Spatial (STA), qui convertit efficacement la sortie monoscale de
DINOv3 en caractéristiques multiscales et complète une sémantique forte avec des détails
fins pour améliorer la détection. Pour les modèles ultra-légers (Nano, Pico, Femto et Atto),
nous utilisons HGNetv2 avec élagage en profondeur et en largeur pour respecter des budgets
de ressources stricts. Associé à un décodeur simplifié et une version améliorée de Dense O2O,
cette conception unifiée permet à DEIMv2 d'atteindre un compromis performance-coût
supérieur dans divers scénarios, établissant de nouveaux résultats de pointe. Notamment,
notre plus grand modèle, DEIMv2-X, atteint 57,8 AP avec seulement 50,3 millions de
paramètres, surpassant les modèles de taille X précédents qui nécessitent plus de 60 millions
de paramètres pour seulement 56,5 AP. Du côté compact, DEIMv2-S est le premier modèle
inférieur à 10 millions (9,71 millions) à dépasser le cap des 50 AP sur COCO, atteignant 50,9 AP.
Même l'ultra-léger DEIMv2-Pico, avec seulement 1,5 million de paramètres, offre 38,5 AP,
égalant YOLOv10-Nano (2,3 millions) avec environ 50 % de paramètres en moins. Notre code
et nos modèles pré-entraînés sont disponibles sur https://github.com/Intellindust-AI-Lab/DEIMv2.
English
Benefiting from the simplicity and effectiveness of Dense O2O and MAL, DEIM
has become the mainstream training framework for real-time DETRs, significantly
outperforming the YOLO series. In this work, we extend it with DINOv3 features,
resulting in DEIMv2. DEIMv2 spans eight model sizes from X to Atto, covering
GPU, edge, and mobile deployment. For the X, L, M, and S variants, we adopt
DINOv3-pretrained or distilled backbones and introduce a Spatial Tuning Adapter
(STA), which efficiently converts DINOv3's single-scale output into multi-scale
features and complements strong semantics with fine-grained details to enhance
detection. For ultra-lightweight models (Nano, Pico, Femto, and Atto), we
employ HGNetv2 with depth and width pruning to meet strict resource budgets.
Together with a simplified decoder and an upgraded Dense O2O, this unified
design enables DEIMv2 to achieve a superior performance-cost trade-off across
diverse scenarios, establishing new state-of-the-art results. Notably, our
largest model, DEIMv2-X, achieves 57.8 AP with only 50.3 million parameters,
surpassing prior X-scale models that require over 60 million parameters for
just 56.5 AP. On the compact side, DEIMv2-S is the first sub-10 million model
(9.71 million) to exceed the 50 AP milestone on COCO, reaching 50.9 AP. Even
the ultra-lightweight DEIMv2-Pico, with just 1.5 million parameters, delivers
38.5 AP, matching YOLOv10-Nano (2.3 million) with around 50 percent fewer
parameters. Our code and pre-trained models are available at
https://github.com/Intellindust-AI-Lab/DEIMv2