Detecção de Objetos em Tempo Real Encontra o DINOv3

Resumo

Beneficiando-se da simplicidade e eficácia do Dense O2O e do MAL, o DEIM tornou-se o principal framework de treinamento para DETRs em tempo real, superando significativamente a série YOLO. Neste trabalho, estendemos o DEIM com recursos do DINOv3, resultando no DEIMv2. O DEIMv2 abrange oito tamanhos de modelo, de X a Atto, cobrindo implantações em GPU, borda e dispositivos móveis. Para as variantes X, L, M e S, adotamos backbones pré-treinados ou destilados do DINOv3 e introduzimos um Adaptador de Ajuste Espacial (STA), que converte eficientemente a saída de escala única do DINOv3 em recursos multiescala e complementa a semântica robusta com detalhes refinados para melhorar a detecção. Para modelos ultraleves (Nano, Pico, Femto e Atto), empregamos o HGNetv2 com poda de profundidade e largura para atender a orçamentos de recursos rigorosos. Juntamente com um decodificador simplificado e um Dense O2O aprimorado, esse design unificado permite que o DEIMv2 alcance um equilíbrio superior entre desempenho e custo em diversos cenários, estabelecendo novos resultados state-of-the-art. Notavelmente, nosso maior modelo, o DEIMv2-X, alcança 57,8 AP com apenas 50,3 milhões de parâmetros, superando modelos anteriores em escala X que exigem mais de 60 milhões de parâmetros para apenas 56,5 AP. No lado compacto, o DEIMv2-S é o primeiro modelo com menos de 10 milhões de parâmetros (9,71 milhões) a ultrapassar a marca de 50 AP no COCO, atingindo 50,9 AP. Até mesmo o ultraleve DEIMv2-Pico, com apenas 1,5 milhão de parâmetros, entrega 38,5 AP, equiparando-se ao YOLOv10-Nano (2,3 milhões) com cerca de 50% menos parâmetros. Nosso código e modelos pré-treinados estão disponíveis em https://github.com/Intellindust-AI-Lab/DEIMv2.

English

Benefiting from the simplicity and effectiveness of Dense O2O and MAL, DEIM has become the mainstream training framework for real-time DETRs, significantly outperforming the YOLO series. In this work, we extend it with DINOv3 features, resulting in DEIMv2. DEIMv2 spans eight model sizes from X to Atto, covering GPU, edge, and mobile deployment. For the X, L, M, and S variants, we adopt DINOv3-pretrained or distilled backbones and introduce a Spatial Tuning Adapter (STA), which efficiently converts DINOv3's single-scale output into multi-scale features and complements strong semantics with fine-grained details to enhance detection. For ultra-lightweight models (Nano, Pico, Femto, and Atto), we employ HGNetv2 with depth and width pruning to meet strict resource budgets. Together with a simplified decoder and an upgraded Dense O2O, this unified design enables DEIMv2 to achieve a superior performance-cost trade-off across diverse scenarios, establishing new state-of-the-art results. Notably, our largest model, DEIMv2-X, achieves 57.8 AP with only 50.3 million parameters, surpassing prior X-scale models that require over 60 million parameters for just 56.5 AP. On the compact side, DEIMv2-S is the first sub-10 million model (9.71 million) to exceed the 50 AP milestone on COCO, reaching 50.9 AP. Even the ultra-lightweight DEIMv2-Pico, with just 1.5 million parameters, delivers 38.5 AP, matching YOLOv10-Nano (2.3 million) with around 50 percent fewer parameters. Our code and pre-trained models are available at https://github.com/Intellindust-AI-Lab/DEIMv2

Detecção de Objetos em Tempo Real Encontra o DINOv3

Real-Time Object Detection Meets DINOv3

Resumo

Support