ChatPaper.aiChatPaper

Real-Time Object Detection Ontmoet DINOv3

Real-Time Object Detection Meets DINOv3

September 25, 2025
Auteurs: Shihua Huang, Yongjie Hou, Longfei Liu, Xuanlong Yu, Xi Shen
cs.AI

Samenvatting

Door te profiteren van de eenvoud en effectiviteit van Dense O2O en MAL, is DEIM het dominante trainingsraamwerk geworden voor real-time DETRs, waarbij het de YOLO-serie aanzienlijk overtreft. In dit werk breiden we het uit met DINOv3-kenmerken, wat resulteert in DEIMv2. DEIMv2 omvat acht modelgroottes van X tot Atto, geschikt voor GPU-, edge- en mobiele implementaties. Voor de X, L, M en S varianten gebruiken we DINOv3-voorgetrainde of gedistilleerde backbones en introduceren we een Spatial Tuning Adapter (STA), die efficiënt de enkelvoudige schaaloutput van DINOv3 omzet in multi-schaal kenmerken en sterke semantiek aanvult met fijnmazige details om de detectie te verbeteren. Voor ultralichte modellen (Nano, Pico, Femto en Atto) gebruiken we HGNetv2 met diepte- en breedte-snoei om strikte resourcebudgetten te halen. Samen met een vereenvoudigde decoder en een geüpgradede Dense O2O maakt dit uniforme ontwerp het mogelijk dat DEIMv2 een superieure prestatie-kostenverhouding bereikt in diverse scenario's, waarbij nieuwe state-of-the-art resultaten worden gevestigd. Opmerkelijk is dat ons grootste model, DEIMv2-X, 57.8 AP behaalt met slechts 50,3 miljoen parameters, wat eerdere X-schaalmodellen overtreft die meer dan 60 miljoen parameters nodig hebben voor slechts 56.5 AP. Aan de compacte kant is DEIMv2-S het eerste model met minder dan 10 miljoen parameters (9,71 miljoen) dat de mijlpaal van 50 AP op COCO overschrijdt, met een score van 50.9 AP. Zelfs het ultralichte DEIMv2-Pico, met slechts 1,5 miljoen parameters, levert 38.5 AP, wat overeenkomt met YOLOv10-Nano (2,3 miljoen) met ongeveer 50 procent minder parameters. Onze code en voorgetrainde modellen zijn beschikbaar op https://github.com/Intellindust-AI-Lab/DEIMv2.
English
Benefiting from the simplicity and effectiveness of Dense O2O and MAL, DEIM has become the mainstream training framework for real-time DETRs, significantly outperforming the YOLO series. In this work, we extend it with DINOv3 features, resulting in DEIMv2. DEIMv2 spans eight model sizes from X to Atto, covering GPU, edge, and mobile deployment. For the X, L, M, and S variants, we adopt DINOv3-pretrained or distilled backbones and introduce a Spatial Tuning Adapter (STA), which efficiently converts DINOv3's single-scale output into multi-scale features and complements strong semantics with fine-grained details to enhance detection. For ultra-lightweight models (Nano, Pico, Femto, and Atto), we employ HGNetv2 with depth and width pruning to meet strict resource budgets. Together with a simplified decoder and an upgraded Dense O2O, this unified design enables DEIMv2 to achieve a superior performance-cost trade-off across diverse scenarios, establishing new state-of-the-art results. Notably, our largest model, DEIMv2-X, achieves 57.8 AP with only 50.3 million parameters, surpassing prior X-scale models that require over 60 million parameters for just 56.5 AP. On the compact side, DEIMv2-S is the first sub-10 million model (9.71 million) to exceed the 50 AP milestone on COCO, reaching 50.9 AP. Even the ultra-lightweight DEIMv2-Pico, with just 1.5 million parameters, delivers 38.5 AP, matching YOLOv10-Nano (2.3 million) with around 50 percent fewer parameters. Our code and pre-trained models are available at https://github.com/Intellindust-AI-Lab/DEIMv2
PDF102September 29, 2025