ChatPaper.aiChatPaper

Détection d'Objets en Temps Réel Rencontre DINOv3

Real-Time Object Detection Meets DINOv3

September 25, 2025
papers.authors: Shihua Huang, Yongjie Hou, Longfei Liu, Xuanlong Yu, Xi Shen
cs.AI

papers.abstract

Tirant parti de la simplicité et de l'efficacité de Dense O2O et de MAL, DEIM est devenu le cadre d'entraînement dominant pour les DETRs en temps réel, surpassant significativement la série YOLO. Dans ce travail, nous l'étendons avec les fonctionnalités de DINOv3, aboutissant à DEIMv2. DEIMv2 couvre huit tailles de modèles, de X à Atto, adaptées aux déploiements sur GPU, en périphérie et sur mobile. Pour les variantes X, L, M et S, nous adoptons des backbones pré-entraînés ou distillés avec DINOv3 et introduisons un Adaptateur de Réglage Spatial (STA), qui convertit efficacement la sortie monoscale de DINOv3 en caractéristiques multiscales et complète une sémantique forte avec des détails fins pour améliorer la détection. Pour les modèles ultra-légers (Nano, Pico, Femto et Atto), nous utilisons HGNetv2 avec élagage en profondeur et en largeur pour respecter des budgets de ressources stricts. Associé à un décodeur simplifié et une version améliorée de Dense O2O, cette conception unifiée permet à DEIMv2 d'atteindre un compromis performance-coût supérieur dans divers scénarios, établissant de nouveaux résultats de pointe. Notamment, notre plus grand modèle, DEIMv2-X, atteint 57,8 AP avec seulement 50,3 millions de paramètres, surpassant les modèles de taille X précédents qui nécessitent plus de 60 millions de paramètres pour seulement 56,5 AP. Du côté compact, DEIMv2-S est le premier modèle inférieur à 10 millions (9,71 millions) à dépasser le cap des 50 AP sur COCO, atteignant 50,9 AP. Même l'ultra-léger DEIMv2-Pico, avec seulement 1,5 million de paramètres, offre 38,5 AP, égalant YOLOv10-Nano (2,3 millions) avec environ 50 % de paramètres en moins. Notre code et nos modèles pré-entraînés sont disponibles sur https://github.com/Intellindust-AI-Lab/DEIMv2.
English
Benefiting from the simplicity and effectiveness of Dense O2O and MAL, DEIM has become the mainstream training framework for real-time DETRs, significantly outperforming the YOLO series. In this work, we extend it with DINOv3 features, resulting in DEIMv2. DEIMv2 spans eight model sizes from X to Atto, covering GPU, edge, and mobile deployment. For the X, L, M, and S variants, we adopt DINOv3-pretrained or distilled backbones and introduce a Spatial Tuning Adapter (STA), which efficiently converts DINOv3's single-scale output into multi-scale features and complements strong semantics with fine-grained details to enhance detection. For ultra-lightweight models (Nano, Pico, Femto, and Atto), we employ HGNetv2 with depth and width pruning to meet strict resource budgets. Together with a simplified decoder and an upgraded Dense O2O, this unified design enables DEIMv2 to achieve a superior performance-cost trade-off across diverse scenarios, establishing new state-of-the-art results. Notably, our largest model, DEIMv2-X, achieves 57.8 AP with only 50.3 million parameters, surpassing prior X-scale models that require over 60 million parameters for just 56.5 AP. On the compact side, DEIMv2-S is the first sub-10 million model (9.71 million) to exceed the 50 AP milestone on COCO, reaching 50.9 AP. Even the ultra-lightweight DEIMv2-Pico, with just 1.5 million parameters, delivers 38.5 AP, matching YOLOv10-Nano (2.3 million) with around 50 percent fewer parameters. Our code and pre-trained models are available at https://github.com/Intellindust-AI-Lab/DEIMv2
PDF62September 29, 2025