ChatPaper.aiChatPaper

YOLOv12: Detectores de objetos en tiempo real centrados en la atención

YOLOv12: Attention-Centric Real-Time Object Detectors

February 18, 2025
Autores: Yunjie Tian, Qixiang Ye, David Doermann
cs.AI

Resumen

La mejora de la arquitectura de red del marco YOLO ha sido crucial durante mucho tiempo, pero se ha centrado en mejoras basadas en CNN a pesar de la superioridad demostrada de los mecanismos de atención en capacidades de modelado. Esto se debe a que los modelos basados en atención no pueden igualar la velocidad de los modelos basados en CNN. Este artículo propone un marco YOLO centrado en la atención, denominado YOLOv12, que iguala la velocidad de los anteriores basados en CNN mientras aprovecha los beneficios de rendimiento de los mecanismos de atención. YOLOv12 supera a todos los detectores de objetos en tiempo real más populares en precisión con una velocidad competitiva. Por ejemplo, YOLOv12-N alcanza un 40.6% de mAP con una latencia de inferencia de 1.64 ms en una GPU T4, superando a YOLOv10-N / YOLOv11-N en un 2.1%/1.2% de mAP con una velocidad comparable. Esta ventaja se extiende a otras escalas de modelos. YOLOv12 también supera a los detectores en tiempo real de extremo a extremo que mejoran DETR, como RT-DETR / RT-DETRv2: YOLOv12-S supera a RT-DETR-R18 / RT-DETRv2-R18 mientras funciona un 42% más rápido, utilizando solo el 36% del cómputo y el 45% de los parámetros. Más comparaciones se muestran en la Figura 1.
English
Enhancing the network architecture of the YOLO framework has been crucial for a long time, but has focused on CNN-based improvements despite the proven superiority of attention mechanisms in modeling capabilities. This is because attention-based models cannot match the speed of CNN-based models. This paper proposes an attention-centric YOLO framework, namely YOLOv12, that matches the speed of previous CNN-based ones while harnessing the performance benefits of attention mechanisms. YOLOv12 surpasses all popular real-time object detectors in accuracy with competitive speed. For example, YOLOv12-N achieves 40.6% mAP with an inference latency of 1.64 ms on a T4 GPU, outperforming advanced YOLOv10-N / YOLOv11-N by 2.1%/1.2% mAP with a comparable speed. This advantage extends to other model scales. YOLOv12 also surpasses end-to-end real-time detectors that improve DETR, such as RT-DETR / RT-DETRv2: YOLOv12-S beats RT-DETR-R18 / RT-DETRv2-R18 while running 42% faster, using only 36% of the computation and 45% of the parameters. More comparisons are shown in Figure 1.

Summary

AI-Generated Summary

PDF102February 19, 2025