RF-DETR Objekterkennung vs. YOLOv12: Eine Studie zu Transformer-basierten und CNN-basierten Architekturen für die Einzelklassen- und Mehrklassen-Erkennung von Grünfrüchten in komplexen Obstgartenumgebungen unter Bedingungen von Label-Unschärfe

papers.abstract

Diese Studie führt einen detaillierten Vergleich zwischen dem RF-DETR-Basismodell für Objekterkennung und den Konfigurationen des YOLOv12-Objekterkennungsmodells durch, um grüne Früchte in einer komplexen Umgebung von Obstplantagen zu erkennen, die durch Label-Unschärfe, Verdeckungen und Hintergrundverschmelzung gekennzeichnet ist. Ein benutzerdefiniertes Datenset wurde entwickelt, das sowohl Einzelklassen- (grüne Früchte) als auch Mehrklassen-Annotationen (verdeckte und nicht verdeckte grüne Früchte) umfasst, um die Modellleistung unter dynamischen realen Bedingungen zu bewerten. Das RF-DETR-Objekterkennungsmodell, das einen DINOv2-Backbone und deformierbare Aufmerksamkeit nutzt, zeichnete sich durch die Modellierung des globalen Kontexts aus und identifizierte effektiv teilweise verdeckte oder mehrdeutige grüne Früchte. Im Gegensatz dazu nutzte YOLOv12 CNN-basierte Aufmerksamkeit für eine verbesserte lokale Merkmalsextraktion, was es für Recheneffizienz und Edge-Bereitstellung optimierte. RF-DETR erreichte den höchsten mittleren Durchschnittspräzisionswert (mAP50) von 0,9464 bei der Einzelklassenerkennung und bewies damit seine überlegene Fähigkeit, grüne Früchte in unübersichtlichen Szenen zu lokalisieren. Obwohl YOLOv12N den höchsten mAP@50:95-Wert von 0,7620 erzielte, übertraf RF-DETR in komplexen räumlichen Szenarien durchweg. Bei der Mehrklassenerkennung führte RF-DETR mit einem mAP@50 von 0,8298 und zeigte seine Fähigkeit, zwischen verdeckten und nicht verdeckten Früchten zu unterscheiden, während YOLOv12L mit 0,6622 den höchsten mAP@50:95-Wert erreichte, was auf eine bessere Klassifizierung in detaillierten Verdeckungskontexten hinweist. Die Analyse der Trainingsdynamik hob die schnelle Konvergenz von RF-DETR hervor, insbesondere in Einzelklassenszenarien, wo es innerhalb von 10 Epochen ein Plateau erreichte, was die Effizienz von Transformer-basierten Architekturen bei der Anpassung an dynamische visuelle Daten demonstriert. Diese Ergebnisse bestätigen die Effektivität von RF-DETR für Präzisionslandwirtschaftsanwendungen, während YOLOv12 für Szenarien mit schneller Reaktion geeignet ist. >Indexbegriffe: RF-DETR-Objekterkennung, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs

English

This study conducts a detailed comparison of RF-DETR object detection base model and YOLOv12 object detection model configurations for detecting greenfruits in a complex orchard environment marked by label ambiguity, occlusions, and background blending. A custom dataset was developed featuring both single-class (greenfruit) and multi-class (occluded and non-occluded greenfruits) annotations to assess model performance under dynamic real-world conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and deformable attention, excelled in global context modeling, effectively identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12 leveraged CNN-based attention for enhanced local feature extraction, optimizing it for computational efficiency and edge deployment. RF-DETR achieved the highest mean Average Precision (mAP50) of 0.9464 in single-class detection, proving its superior ability to localize greenfruits in cluttered scenes. Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR consistently outperformed in complex spatial scenarios. For multi-class detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to differentiate between occluded and non-occluded fruits, while YOLOv12L scored highest in mAP@50:95 with 0.6622, indicating better classification in detailed occlusion contexts. Training dynamics analysis highlighted RF-DETR's swift convergence, particularly in single-class settings where it plateaued within 10 epochs, demonstrating the efficiency of transformer-based architectures in adapting to dynamic visual data. These findings validate RF-DETR's effectiveness for precision agricultural applications, with YOLOv12 suited for fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs

RF-DETR Objekterkennung vs. YOLOv12: Eine Studie zu Transformer-basierten und CNN-basierten Architekturen für die Einzelklassen- und Mehrklassen-Erkennung von Grünfrüchten in komplexen Obstgartenumgebungen unter Bedingungen von Label-Unschärfe

RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

papers.abstract

Support