YOLOv12: Rilevatori di oggetti in tempo reale basati sull'attenzione
YOLOv12: Attention-Centric Real-Time Object Detectors
February 18, 2025
Autori: Yunjie Tian, Qixiang Ye, David Doermann
cs.AI
Abstract
Migliorare l'architettura di rete del framework YOLO è stato cruciale per lungo tempo, ma si è concentrato su miglioramenti basati su CNN nonostante la comprovata superiorità dei meccanismi di attenzione nelle capacità di modellazione. Ciò è dovuto al fatto che i modelli basati sull'attenzione non possono eguagliare la velocità dei modelli basati su CNN. Questo articolo propone un framework YOLO centrato sull'attenzione, denominato YOLOv12, che eguaglia la velocità dei precedenti modelli basati su CNN sfruttando i vantaggi prestazionali dei meccanismi di attenzione. YOLOv12 supera tutti i popolari rilevatori di oggetti in tempo reale in termini di accuratezza con una velocità competitiva. Ad esempio, YOLOv12-N raggiunge un mAP del 40,6% con una latenza di inferenza di 1,64 ms su una GPU T4, superando i modelli avanzati YOLOv10-N / YOLOv11-N di un 2,1%/1,2% in mAP con una velocità comparabile. Questo vantaggio si estende ad altre scale di modelli. YOLOv12 supera anche i rilevatori end-to-end in tempo reale che migliorano DETR, come RT-DETR / RT-DETRv2: YOLOv12-S batte RT-DETR-R18 / RT-DETRv2-R18 mentre funziona il 42% più velocemente, utilizzando solo il 36% del calcolo e il 45% dei parametri. Ulteriori confronti sono mostrati nella Figura 1.
English
Enhancing the network architecture of the YOLO framework has been crucial for
a long time, but has focused on CNN-based improvements despite the proven
superiority of attention mechanisms in modeling capabilities. This is because
attention-based models cannot match the speed of CNN-based models. This paper
proposes an attention-centric YOLO framework, namely YOLOv12, that matches the
speed of previous CNN-based ones while harnessing the performance benefits of
attention mechanisms. YOLOv12 surpasses all popular real-time object detectors
in accuracy with competitive speed. For example, YOLOv12-N achieves 40.6% mAP
with an inference latency of 1.64 ms on a T4 GPU, outperforming advanced
YOLOv10-N / YOLOv11-N by 2.1%/1.2% mAP with a comparable speed. This advantage
extends to other model scales. YOLOv12 also surpasses end-to-end real-time
detectors that improve DETR, such as RT-DETR / RT-DETRv2: YOLOv12-S beats
RT-DETR-R18 / RT-DETRv2-R18 while running 42% faster, using only 36% of the
computation and 45% of the parameters. More comparisons are shown in Figure 1.Summary
AI-Generated Summary