ChatPaper.aiChatPaper

RF-DETR Detecção de Objetos vs YOLOv12: Um Estudo de Arquiteturas Baseadas em Transformers e CNNs para Detecção de Frutos Verdes em Classes Únicas e Múltiplas em Ambientes Complexos de Pomares sob Ambiguidade de Rótulos

RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

April 17, 2025
Autores: Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee
cs.AI

Resumo

Este estudo realiza uma comparação detalhada entre o modelo base de detecção de objetos RF-DETR e as configurações do modelo de detecção de objetos YOLOv12 para a detecção de frutos verdes em um ambiente complexo de pomar, caracterizado por ambiguidade de rótulos, oclusões e mistura com o fundo. Um conjunto de dados personalizado foi desenvolvido, contendo anotações tanto de classe única (fruto verde) quanto de múltiplas classes (frutos verdes ocluídos e não ocluídos), para avaliar o desempenho dos modelos em condições dinâmicas do mundo real. O modelo de detecção de objetos RF-DETR, que utiliza uma arquitetura DINOv2 e atenção deformável, destacou-se na modelagem de contexto global, identificando efetivamente frutos verdes parcialmente ocluídos ou ambíguos. Em contraste, o YOLOv12 aproveitou a atenção baseada em CNN para uma extração aprimorada de características locais, otimizando-o para eficiência computacional e implantação em dispositivos de borda. O RF-DETR alcançou a maior Precisão Média (mAP50) de 0,9464 na detecção de classe única, comprovando sua superioridade na localização de frutos verdes em cenas complexas. Embora o YOLOv12N tenha registrado o maior mAP@50:95 de 0,7620, o RF-DETR consistentemente superou em cenários espaciais complexos. Para a detecção de múltiplas classes, o RF-DETR liderou com um mAP@50 de 0,8298, mostrando sua capacidade de diferenciar entre frutos ocluídos e não ocluídos, enquanto o YOLOv12L obteve o maior mAP@50:95 com 0,6622, indicando uma melhor classificação em contextos detalhados de oclusão. A análise da dinâmica de treinamento destacou a rápida convergência do RF-DETR, especialmente em configurações de classe única, onde atingiu um platô em 10 épocas, demonstrando a eficiência das arquiteturas baseadas em transformadores na adaptação a dados visuais dinâmicos. Esses resultados validam a eficácia do RF-DETR para aplicações de agricultura de precisão, enquanto o YOLOv12 é mais adequado para cenários que exigem resposta rápida. >Termos de Indexação: Detecção de objetos RF-DETR, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Transformers de Detecção, CNNs.
English
This study conducts a detailed comparison of RF-DETR object detection base model and YOLOv12 object detection model configurations for detecting greenfruits in a complex orchard environment marked by label ambiguity, occlusions, and background blending. A custom dataset was developed featuring both single-class (greenfruit) and multi-class (occluded and non-occluded greenfruits) annotations to assess model performance under dynamic real-world conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and deformable attention, excelled in global context modeling, effectively identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12 leveraged CNN-based attention for enhanced local feature extraction, optimizing it for computational efficiency and edge deployment. RF-DETR achieved the highest mean Average Precision (mAP50) of 0.9464 in single-class detection, proving its superior ability to localize greenfruits in cluttered scenes. Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR consistently outperformed in complex spatial scenarios. For multi-class detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to differentiate between occluded and non-occluded fruits, while YOLOv12L scored highest in mAP@50:95 with 0.6622, indicating better classification in detailed occlusion contexts. Training dynamics analysis highlighted RF-DETR's swift convergence, particularly in single-class settings where it plateaued within 10 epochs, demonstrating the efficiency of transformer-based architectures in adapting to dynamic visual data. These findings validate RF-DETR's effectiveness for precision agricultural applications, with YOLOv12 suited for fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs

Summary

AI-Generated Summary

PDF42April 22, 2025