ChatPaper.aiChatPaper

Detección de Objetos en Tiempo Real con DINOv3

Real-Time Object Detection Meets DINOv3

September 25, 2025
Autores: Shihua Huang, Yongjie Hou, Longfei Liu, Xuanlong Yu, Xi Shen
cs.AI

Resumen

Aprovechando la simplicidad y efectividad de Dense O2O y MAL, DEIM se ha convertido en el marco de entrenamiento predominante para DETRs en tiempo real, superando significativamente a la serie YOLO. En este trabajo, lo extendemos con características de DINOv3, dando lugar a DEIMv2. DEIMv2 abarca ocho tamaños de modelo, desde X hasta Atto, cubriendo implementaciones en GPU, dispositivos de borde y móviles. Para las variantes X, L, M y S, adoptamos backbones preentrenados o destilados de DINOv3 e introducimos un Adaptador de Ajuste Espacial (STA, por sus siglas en inglés), que convierte eficientemente la salida de una sola escala de DINOv3 en características multiescala y complementa semánticas fuertes con detalles de grano fino para mejorar la detección. Para modelos ultraligeros (Nano, Pico, Femto y Atto), empleamos HGNetv2 con poda de profundidad y anchura para cumplir con presupuestos de recursos estrictos. Junto con un decodificador simplificado y una versión mejorada de Dense O2O, este diseño unificado permite a DEIMv2 lograr un equilibrio superior entre rendimiento y costo en diversos escenarios, estableciendo nuevos resultados de vanguardia. Destacablemente, nuestro modelo más grande, DEIMv2-X, alcanza 57.8 AP con solo 50.3 millones de parámetros, superando a modelos previos de escala X que requieren más de 60 millones de parámetros para apenas 56.5 AP. En el lado compacto, DEIMv2-S es el primer modelo con menos de 10 millones de parámetros (9.71 millones) en superar el hito de 50 AP en COCO, alcanzando 50.9 AP. Incluso el ultraligero DEIMv2-Pico, con solo 1.5 millones de parámetros, ofrece 38.5 AP, igualando a YOLOv10-Nano (2.3 millones) con aproximadamente un 50 por ciento menos de parámetros. Nuestro código y modelos preentrenados están disponibles en https://github.com/Intellindust-AI-Lab/DEIMv2.
English
Benefiting from the simplicity and effectiveness of Dense O2O and MAL, DEIM has become the mainstream training framework for real-time DETRs, significantly outperforming the YOLO series. In this work, we extend it with DINOv3 features, resulting in DEIMv2. DEIMv2 spans eight model sizes from X to Atto, covering GPU, edge, and mobile deployment. For the X, L, M, and S variants, we adopt DINOv3-pretrained or distilled backbones and introduce a Spatial Tuning Adapter (STA), which efficiently converts DINOv3's single-scale output into multi-scale features and complements strong semantics with fine-grained details to enhance detection. For ultra-lightweight models (Nano, Pico, Femto, and Atto), we employ HGNetv2 with depth and width pruning to meet strict resource budgets. Together with a simplified decoder and an upgraded Dense O2O, this unified design enables DEIMv2 to achieve a superior performance-cost trade-off across diverse scenarios, establishing new state-of-the-art results. Notably, our largest model, DEIMv2-X, achieves 57.8 AP with only 50.3 million parameters, surpassing prior X-scale models that require over 60 million parameters for just 56.5 AP. On the compact side, DEIMv2-S is the first sub-10 million model (9.71 million) to exceed the 50 AP milestone on COCO, reaching 50.9 AP. Even the ultra-lightweight DEIMv2-Pico, with just 1.5 million parameters, delivers 38.5 AP, matching YOLOv10-Nano (2.3 million) with around 50 percent fewer parameters. Our code and pre-trained models are available at https://github.com/Intellindust-AI-Lab/DEIMv2
PDF62September 29, 2025