ChatPaper.aiChatPaper

RF-DETR Object Detection vs YOLOv12: Uno studio sulle architetture basate su Transformer e CNN per il rilevamento di frutti verdi in classi singole e multiple in ambienti complessi di frutteti con ambiguità di etichettatura

RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

April 17, 2025
Autori: Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee
cs.AI

Abstract

Questo studio conduce un confronto dettagliato tra il modello base di rilevamento oggetti RF-DETR e le configurazioni del modello di rilevamento oggetti YOLOv12 per il rilevamento di frutti verdi in un ambiente complesso di frutteto caratterizzato da ambiguità delle etichette, occlusioni e fusione con lo sfondo. È stato sviluppato un dataset personalizzato con annotazioni sia a classe singola (frutto verde) che multi-classe (frutti verdi occlusi e non occlusi) per valutare le prestazioni dei modelli in condizioni dinamiche del mondo reale. Il modello di rilevamento oggetti RF-DETR, che utilizza un backbone DINOv2 e un'attenzione deformabile, si è distinto nella modellazione del contesto globale, identificando efficacemente frutti verdi parzialmente occlusi o ambigui. Al contrario, YOLOv12 ha sfruttato un'attenzione basata su CNN per un'estrazione migliorata delle caratteristiche locali, ottimizzandolo per l'efficienza computazionale e il dispiegamento su dispositivi edge. RF-DETR ha raggiunto il più alto valore di Precisione Media (mAP50) di 0,9464 nel rilevamento a classe singola, dimostrando la sua superiore capacità di localizzare frutti verdi in scene affollate. Sebbene YOLOv12N abbia registrato il più alto mAP@50:95 di 0,7620, RF-DETR ha costantemente superato gli altri in scenari spaziali complessi. Per il rilevamento multi-classe, RF-DETR ha guidato con un mAP@50 di 0,8298, mostrando la sua capacità di distinguere tra frutti occlusi e non occlusi, mentre YOLOv12L ha ottenuto il punteggio più alto in mAP@50:95 con 0,6622, indicando una migliore classificazione in contesti di occlusione dettagliati. L'analisi delle dinamiche di addestramento ha evidenziato la rapida convergenza di RF-DETR, in particolare nelle impostazioni a classe singola dove ha raggiunto un plateau entro 10 epoche, dimostrando l'efficienza delle architetture basate su transformer nell'adattarsi a dati visivi dinamici. Questi risultati convalidano l'efficacia di RF-DETR per applicazioni agricole di precisione, con YOLOv12 adatto a scenari che richiedono risposte rapide. >Termini di indice: Rilevamento oggetti RF-DETR, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNN.
English
This study conducts a detailed comparison of RF-DETR object detection base model and YOLOv12 object detection model configurations for detecting greenfruits in a complex orchard environment marked by label ambiguity, occlusions, and background blending. A custom dataset was developed featuring both single-class (greenfruit) and multi-class (occluded and non-occluded greenfruits) annotations to assess model performance under dynamic real-world conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and deformable attention, excelled in global context modeling, effectively identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12 leveraged CNN-based attention for enhanced local feature extraction, optimizing it for computational efficiency and edge deployment. RF-DETR achieved the highest mean Average Precision (mAP50) of 0.9464 in single-class detection, proving its superior ability to localize greenfruits in cluttered scenes. Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR consistently outperformed in complex spatial scenarios. For multi-class detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to differentiate between occluded and non-occluded fruits, while YOLOv12L scored highest in mAP@50:95 with 0.6622, indicating better classification in detailed occlusion contexts. Training dynamics analysis highlighted RF-DETR's swift convergence, particularly in single-class settings where it plateaued within 10 epochs, demonstrating the efficiency of transformer-based architectures in adapting to dynamic visual data. These findings validate RF-DETR's effectiveness for precision agricultural applications, with YOLOv12 suited for fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs

Summary

AI-Generated Summary

PDF42April 22, 2025