Rilevamento Oggetti in Tempo Reale Incontra DINOv3
Real-Time Object Detection Meets DINOv3
September 25, 2025
Autori: Shihua Huang, Yongjie Hou, Longfei Liu, Xuanlong Yu, Xi Shen
cs.AI
Abstract
Traendo vantaggio dalla semplicità e dall'efficacia di Dense O2O e MAL, DEIM
è diventato il framework di addestramento principale per i DETR in tempo reale,
superando significativamente la serie YOLO. In questo lavoro, lo estendiamo con
le caratteristiche di DINOv3, ottenendo DEIMv2. DEIMv2 copre otto dimensioni di
modello da X a Atto, adattandosi a implementazioni su GPU, edge e mobile. Per
le varianti X, L, M e S, adottiamo backbone pre-addestrati o distillati con
DINOv3 e introduciamo un Adattatore di Sintonizzazione Spaziale (STA), che
converte efficientemente l'output a scala singola di DINOv3 in funzionalità
multi-scala, integrando una semantica forte con dettagli granulari per
migliorare il rilevamento. Per i modelli ultra-leggeri (Nano, Pico, Femto e
Atto), utilizziamo HGNetv2 con potatura di profondità e larghezza per rispettare
budget di risorse rigorosi. Insieme a un decoder semplificato e a un Dense O2O
aggiornato, questo design unificato consente a DEIMv2 di raggiungere un
compromesso superiore tra prestazioni e costi in diversi scenari, stabilendo
nuovi risultati all'avanguardia. In particolare, il nostro modello più grande,
DEIMv2-X, raggiunge 57.8 AP con soli 50.3 milioni di parametri, superando i
modelli X-scale precedenti che richiedono oltre 60 milioni di parametri per
appena 56.5 AP. Sul lato compatto, DEIMv2-S è il primo modello sotto i 10
milioni (9.71 milioni) a superare il traguardo di 50 AP su COCO, raggiungendo
50.9 AP. Persino l'ultra-leggero DEIMv2-Pico, con soli 1.5 milioni di
parametri, offre 38.5 AP, eguagliando YOLOv10-Nano (2.3 milioni) con circa il
50 percento in meno di parametri. Il nostro codice e i modelli pre-addestrati
sono disponibili su https://github.com/Intellindust-AI-Lab/DEIMv2.
English
Benefiting from the simplicity and effectiveness of Dense O2O and MAL, DEIM
has become the mainstream training framework for real-time DETRs, significantly
outperforming the YOLO series. In this work, we extend it with DINOv3 features,
resulting in DEIMv2. DEIMv2 spans eight model sizes from X to Atto, covering
GPU, edge, and mobile deployment. For the X, L, M, and S variants, we adopt
DINOv3-pretrained or distilled backbones and introduce a Spatial Tuning Adapter
(STA), which efficiently converts DINOv3's single-scale output into multi-scale
features and complements strong semantics with fine-grained details to enhance
detection. For ultra-lightweight models (Nano, Pico, Femto, and Atto), we
employ HGNetv2 with depth and width pruning to meet strict resource budgets.
Together with a simplified decoder and an upgraded Dense O2O, this unified
design enables DEIMv2 to achieve a superior performance-cost trade-off across
diverse scenarios, establishing new state-of-the-art results. Notably, our
largest model, DEIMv2-X, achieves 57.8 AP with only 50.3 million parameters,
surpassing prior X-scale models that require over 60 million parameters for
just 56.5 AP. On the compact side, DEIMv2-S is the first sub-10 million model
(9.71 million) to exceed the 50 AP milestone on COCO, reaching 50.9 AP. Even
the ultra-lightweight DEIMv2-Pico, with just 1.5 million parameters, delivers
38.5 AP, matching YOLOv10-Nano (2.3 million) with around 50 percent fewer
parameters. Our code and pre-trained models are available at
https://github.com/Intellindust-AI-Lab/DEIMv2