Rilevamento Oggetti in Tempo Reale Incontra DINOv3

Abstract

Traendo vantaggio dalla semplicità e dall'efficacia di Dense O2O e MAL, DEIM è diventato il framework di addestramento principale per i DETR in tempo reale, superando significativamente la serie YOLO. In questo lavoro, lo estendiamo con le caratteristiche di DINOv3, ottenendo DEIMv2. DEIMv2 copre otto dimensioni di modello da X a Atto, adattandosi a implementazioni su GPU, edge e mobile. Per le varianti X, L, M e S, adottiamo backbone pre-addestrati o distillati con DINOv3 e introduciamo un Adattatore di Sintonizzazione Spaziale (STA), che converte efficientemente l'output a scala singola di DINOv3 in funzionalità multi-scala, integrando una semantica forte con dettagli granulari per migliorare il rilevamento. Per i modelli ultra-leggeri (Nano, Pico, Femto e Atto), utilizziamo HGNetv2 con potatura di profondità e larghezza per rispettare budget di risorse rigorosi. Insieme a un decoder semplificato e a un Dense O2O aggiornato, questo design unificato consente a DEIMv2 di raggiungere un compromesso superiore tra prestazioni e costi in diversi scenari, stabilendo nuovi risultati all'avanguardia. In particolare, il nostro modello più grande, DEIMv2-X, raggiunge 57.8 AP con soli 50.3 milioni di parametri, superando i modelli X-scale precedenti che richiedono oltre 60 milioni di parametri per appena 56.5 AP. Sul lato compatto, DEIMv2-S è il primo modello sotto i 10 milioni (9.71 milioni) a superare il traguardo di 50 AP su COCO, raggiungendo 50.9 AP. Persino l'ultra-leggero DEIMv2-Pico, con soli 1.5 milioni di parametri, offre 38.5 AP, eguagliando YOLOv10-Nano (2.3 milioni) con circa il 50 percento in meno di parametri. Il nostro codice e i modelli pre-addestrati sono disponibili su https://github.com/Intellindust-AI-Lab/DEIMv2.

English

Benefiting from the simplicity and effectiveness of Dense O2O and MAL, DEIM has become the mainstream training framework for real-time DETRs, significantly outperforming the YOLO series. In this work, we extend it with DINOv3 features, resulting in DEIMv2. DEIMv2 spans eight model sizes from X to Atto, covering GPU, edge, and mobile deployment. For the X, L, M, and S variants, we adopt DINOv3-pretrained or distilled backbones and introduce a Spatial Tuning Adapter (STA), which efficiently converts DINOv3's single-scale output into multi-scale features and complements strong semantics with fine-grained details to enhance detection. For ultra-lightweight models (Nano, Pico, Femto, and Atto), we employ HGNetv2 with depth and width pruning to meet strict resource budgets. Together with a simplified decoder and an upgraded Dense O2O, this unified design enables DEIMv2 to achieve a superior performance-cost trade-off across diverse scenarios, establishing new state-of-the-art results. Notably, our largest model, DEIMv2-X, achieves 57.8 AP with only 50.3 million parameters, surpassing prior X-scale models that require over 60 million parameters for just 56.5 AP. On the compact side, DEIMv2-S is the first sub-10 million model (9.71 million) to exceed the 50 AP milestone on COCO, reaching 50.9 AP. Even the ultra-lightweight DEIMv2-Pico, with just 1.5 million parameters, delivers 38.5 AP, matching YOLOv10-Nano (2.3 million) with around 50 percent fewer parameters. Our code and pre-trained models are available at https://github.com/Intellindust-AI-Lab/DEIMv2

Rilevamento Oggetti in Tempo Reale Incontra DINOv3

Real-Time Object Detection Meets DINOv3

Abstract

Support