YOLOv12 : Détecteurs d'objets en temps réel axés sur l'attention
YOLOv12: Attention-Centric Real-Time Object Detectors
February 18, 2025
Auteurs: Yunjie Tian, Qixiang Ye, David Doermann
cs.AI
Résumé
L'amélioration de l'architecture réseau du cadre YOLO a longtemps été cruciale, mais s'est concentrée sur des améliorations basées sur les CNN, malgré la supériorité avérée des mécanismes d'attention en termes de capacités de modélisation. Cela s'explique par le fait que les modèles basés sur l'attention ne peuvent égaler la vitesse des modèles basés sur les CNN. Cet article propose un cadre YOLO centré sur l'attention, nommé YOLOv12, qui correspond à la vitesse des précédents modèles basés sur les CNN tout en exploitant les avantages de performance des mécanismes d'attention. YOLOv12 surpasse tous les détecteurs d'objets en temps réel populaires en termes de précision, tout en offrant une vitesse compétitive. Par exemple, YOLOv12-N atteint 40,6 % de mAP avec une latence d'inférence de 1,64 ms sur un GPU T4, surpassant les modèles avancés YOLOv10-N / YOLOv11-N de 2,1 % / 1,2 % de mAP tout en conservant une vitesse comparable. Cet avantage s'étend à d'autres échelles de modèles. YOLOv12 surpasse également les détecteurs en temps réel de bout en bout qui améliorent DETR, tels que RT-DETR / RT-DETRv2 : YOLOv12-S surpasse RT-DETR-R18 / RT-DETRv2-R18 tout en étant 42 % plus rapide, utilisant seulement 36 % des calculs et 45 % des paramètres. D'autres comparaisons sont présentées dans la Figure 1.
English
Enhancing the network architecture of the YOLO framework has been crucial for
a long time, but has focused on CNN-based improvements despite the proven
superiority of attention mechanisms in modeling capabilities. This is because
attention-based models cannot match the speed of CNN-based models. This paper
proposes an attention-centric YOLO framework, namely YOLOv12, that matches the
speed of previous CNN-based ones while harnessing the performance benefits of
attention mechanisms. YOLOv12 surpasses all popular real-time object detectors
in accuracy with competitive speed. For example, YOLOv12-N achieves 40.6% mAP
with an inference latency of 1.64 ms on a T4 GPU, outperforming advanced
YOLOv10-N / YOLOv11-N by 2.1%/1.2% mAP with a comparable speed. This advantage
extends to other model scales. YOLOv12 also surpasses end-to-end real-time
detectors that improve DETR, such as RT-DETR / RT-DETRv2: YOLOv12-S beats
RT-DETR-R18 / RT-DETRv2-R18 while running 42% faster, using only 36% of the
computation and 45% of the parameters. More comparisons are shown in Figure 1.Summary
AI-Generated Summary