ChatPaper.aiChatPaper

Обнаружение объектов в реальном времени с использованием DINOv3

Real-Time Object Detection Meets DINOv3

September 25, 2025
Авторы: Shihua Huang, Yongjie Hou, Longfei Liu, Xuanlong Yu, Xi Shen
cs.AI

Аннотация

Благодаря простоте и эффективности Dense O2O и MAL, DEIM стал основным фреймворком для обучения моделей DETR в реальном времени, значительно превосходя серию YOLO. В данной работе мы расширяем его с использованием функций DINOv3, что приводит к созданию DEIMv2. DEIMv2 охватывает восемь размеров моделей от X до Atto, подходящих для развертывания на GPU, на периферийных устройствах и мобильных платформах. Для вариантов X, L, M и S мы используем предобученные или дистиллированные базовые архитектуры DINOv3 и вводим Spatial Tuning Adapter (STA), который эффективно преобразует одноразмерный выход DINOv3 в многоразмерные признаки, дополняя сильную семантику детализированными данными для улучшения обнаружения. Для сверхлегких моделей (Nano, Pico, Femto и Atto) мы применяем HGNetv2 с обрезкой по глубине и ширине, чтобы соответствовать строгим ограничениям ресурсов. В сочетании с упрощенным декодером и улучшенным Dense O2O, этот унифицированный подход позволяет DEIMv2 достичь оптимального баланса между производительностью и затратами в различных сценариях, устанавливая новые рекорды. В частности, наша крупнейшая модель, DEIMv2-X, достигает 57.8 AP при всего 50.3 миллионах параметров, превосходя предыдущие модели X-масштаба, которые требуют более 60 миллионов параметров для достижения всего 56.5 AP. Среди компактных моделей, DEIMv2-S стала первой моделью с менее чем 10 миллионами параметров (9.71 миллиона), преодолевшей рубеж 50 AP на COCO, достигнув 50.9 AP. Даже сверхлегкая DEIMv2-Pico, с всего 1.5 миллионами параметров, демонстрирует 38.5 AP, что соответствует YOLOv10-Nano (2.3 миллиона) при примерно на 50% меньшем количестве параметров. Наш код и предобученные модели доступны по адресу https://github.com/Intellindust-AI-Lab/DEIMv2.
English
Benefiting from the simplicity and effectiveness of Dense O2O and MAL, DEIM has become the mainstream training framework for real-time DETRs, significantly outperforming the YOLO series. In this work, we extend it with DINOv3 features, resulting in DEIMv2. DEIMv2 spans eight model sizes from X to Atto, covering GPU, edge, and mobile deployment. For the X, L, M, and S variants, we adopt DINOv3-pretrained or distilled backbones and introduce a Spatial Tuning Adapter (STA), which efficiently converts DINOv3's single-scale output into multi-scale features and complements strong semantics with fine-grained details to enhance detection. For ultra-lightweight models (Nano, Pico, Femto, and Atto), we employ HGNetv2 with depth and width pruning to meet strict resource budgets. Together with a simplified decoder and an upgraded Dense O2O, this unified design enables DEIMv2 to achieve a superior performance-cost trade-off across diverse scenarios, establishing new state-of-the-art results. Notably, our largest model, DEIMv2-X, achieves 57.8 AP with only 50.3 million parameters, surpassing prior X-scale models that require over 60 million parameters for just 56.5 AP. On the compact side, DEIMv2-S is the first sub-10 million model (9.71 million) to exceed the 50 AP milestone on COCO, reaching 50.9 AP. Even the ultra-lightweight DEIMv2-Pico, with just 1.5 million parameters, delivers 38.5 AP, matching YOLOv10-Nano (2.3 million) with around 50 percent fewer parameters. Our code and pre-trained models are available at https://github.com/Intellindust-AI-Lab/DEIMv2
PDF62September 29, 2025