Detecção de Objetos em Tempo Real Encontra o DINOv3
Real-Time Object Detection Meets DINOv3
September 25, 2025
Autores: Shihua Huang, Yongjie Hou, Longfei Liu, Xuanlong Yu, Xi Shen
cs.AI
Resumo
Beneficiando-se da simplicidade e eficácia do Dense O2O e do MAL, o DEIM
tornou-se o principal framework de treinamento para DETRs em tempo real,
superando significativamente a série YOLO. Neste trabalho, estendemos o DEIM
com recursos do DINOv3, resultando no DEIMv2. O DEIMv2 abrange oito tamanhos
de modelo, de X a Atto, cobrindo implantações em GPU, borda e dispositivos
móveis. Para as variantes X, L, M e S, adotamos backbones pré-treinados ou
destilados do DINOv3 e introduzimos um Adaptador de Ajuste Espacial (STA),
que converte eficientemente a saída de escala única do DINOv3 em recursos
multiescala e complementa a semântica robusta com detalhes refinados para
melhorar a detecção. Para modelos ultraleves (Nano, Pico, Femto e Atto),
empregamos o HGNetv2 com poda de profundidade e largura para atender a
orçamentos de recursos rigorosos. Juntamente com um decodificador simplificado
e um Dense O2O aprimorado, esse design unificado permite que o DEIMv2 alcance
um equilíbrio superior entre desempenho e custo em diversos cenários,
estabelecendo novos resultados state-of-the-art. Notavelmente, nosso maior
modelo, o DEIMv2-X, alcança 57,8 AP com apenas 50,3 milhões de parâmetros,
superando modelos anteriores em escala X que exigem mais de 60 milhões de
parâmetros para apenas 56,5 AP. No lado compacto, o DEIMv2-S é o primeiro
modelo com menos de 10 milhões de parâmetros (9,71 milhões) a ultrapassar a
marca de 50 AP no COCO, atingindo 50,9 AP. Até mesmo o ultraleve DEIMv2-Pico,
com apenas 1,5 milhão de parâmetros, entrega 38,5 AP, equiparando-se ao
YOLOv10-Nano (2,3 milhões) com cerca de 50% menos parâmetros. Nosso código e
modelos pré-treinados estão disponíveis em
https://github.com/Intellindust-AI-Lab/DEIMv2.
English
Benefiting from the simplicity and effectiveness of Dense O2O and MAL, DEIM
has become the mainstream training framework for real-time DETRs, significantly
outperforming the YOLO series. In this work, we extend it with DINOv3 features,
resulting in DEIMv2. DEIMv2 spans eight model sizes from X to Atto, covering
GPU, edge, and mobile deployment. For the X, L, M, and S variants, we adopt
DINOv3-pretrained or distilled backbones and introduce a Spatial Tuning Adapter
(STA), which efficiently converts DINOv3's single-scale output into multi-scale
features and complements strong semantics with fine-grained details to enhance
detection. For ultra-lightweight models (Nano, Pico, Femto, and Atto), we
employ HGNetv2 with depth and width pruning to meet strict resource budgets.
Together with a simplified decoder and an upgraded Dense O2O, this unified
design enables DEIMv2 to achieve a superior performance-cost trade-off across
diverse scenarios, establishing new state-of-the-art results. Notably, our
largest model, DEIMv2-X, achieves 57.8 AP with only 50.3 million parameters,
surpassing prior X-scale models that require over 60 million parameters for
just 56.5 AP. On the compact side, DEIMv2-S is the first sub-10 million model
(9.71 million) to exceed the 50 AP milestone on COCO, reaching 50.9 AP. Even
the ultra-lightweight DEIMv2-Pico, with just 1.5 million parameters, delivers
38.5 AP, matching YOLOv10-Nano (2.3 million) with around 50 percent fewer
parameters. Our code and pre-trained models are available at
https://github.com/Intellindust-AI-Lab/DEIMv2