ChatPaper.aiChatPaper

YOLOv12: Detectores de Objetos em Tempo Real Centrados em Atenção

YOLOv12: Attention-Centric Real-Time Object Detectors

February 18, 2025
Autores: Yunjie Tian, Qixiang Ye, David Doermann
cs.AI

Resumo

A melhoria da arquitetura de rede do framework YOLO tem sido crucial por muito tempo, mas tem se concentrado em aprimoramentos baseados em CNN, apesar da superioridade comprovada dos mecanismos de atenção em termos de capacidade de modelagem. Isso ocorre porque modelos baseados em atenção não conseguem igualar a velocidade dos modelos baseados em CNN. Este artigo propõe um framework YOLO centrado em atenção, denominado YOLOv12, que iguala a velocidade dos modelos anteriores baseados em CNN, ao mesmo tempo em que aproveita os benefícios de desempenho dos mecanismos de atenção. O YOLOv12 supera todos os detectores de objetos em tempo real populares em precisão, com velocidade competitiva. Por exemplo, o YOLOv12-N alcança 40,6% de mAP com uma latência de inferência de 1,64 ms em uma GPU T4, superando os avançados YOLOv10-N / YOLOv11-N em 2,1%/1,2% de mAP com uma velocidade comparável. Essa vantagem se estende a outras escalas de modelo. O YOLOv12 também supera detectores em tempo real de ponta a ponta que aprimoram o DETR, como o RT-DETR / RT-DETRv2: o YOLOv12-S supera o RT-DETR-R18 / RT-DETRv2-R18 enquanto executa 42% mais rápido, utilizando apenas 36% da computação e 45% dos parâmetros. Mais comparações são mostradas na Figura 1.
English
Enhancing the network architecture of the YOLO framework has been crucial for a long time, but has focused on CNN-based improvements despite the proven superiority of attention mechanisms in modeling capabilities. This is because attention-based models cannot match the speed of CNN-based models. This paper proposes an attention-centric YOLO framework, namely YOLOv12, that matches the speed of previous CNN-based ones while harnessing the performance benefits of attention mechanisms. YOLOv12 surpasses all popular real-time object detectors in accuracy with competitive speed. For example, YOLOv12-N achieves 40.6% mAP with an inference latency of 1.64 ms on a T4 GPU, outperforming advanced YOLOv10-N / YOLOv11-N by 2.1%/1.2% mAP with a comparable speed. This advantage extends to other model scales. YOLOv12 also surpasses end-to-end real-time detectors that improve DETR, such as RT-DETR / RT-DETRv2: YOLOv12-S beats RT-DETR-R18 / RT-DETRv2-R18 while running 42% faster, using only 36% of the computation and 45% of the parameters. More comparisons are shown in Figure 1.

Summary

AI-Generated Summary

PDF102February 19, 2025