RF-DETR Détection d'Objets vs YOLOv12 : Une Étude des Architectures Basées sur les Transformers et les CNN pour la Détection de Fruits Verts en Classe Unique et Multi-Classes dans des Environnements Complexes de Vergers sous Ambiguïté d'Étiquetage

papers.abstract

Cette étude réalise une comparaison détaillée entre le modèle de base de détection d'objets RF-DETR et les configurations du modèle de détection d'objets YOLOv12 pour la détection de fruits verts dans un environnement complexe de verger marqué par une ambiguïté d'étiquetage, des occlusions et un mélange avec l'arrière-plan. Un jeu de données personnalisé a été développé, comportant des annotations à classe unique (fruits verts) et multi-classes (fruits verts occlus et non occlus) afin d'évaluer les performances des modèles dans des conditions dynamiques du monde réel. Le modèle de détection d'objets RF-DETR, utilisant une architecture DINOv2 et une attention déformable, a excellé dans la modélisation du contexte global, identifiant efficacement les fruits verts partiellement occlus ou ambigus. En revanche, YOLOv12 a exploité une attention basée sur les CNN pour une extraction améliorée des caractéristiques locales, l'optimisant ainsi pour l'efficacité computationnelle et le déploiement en périphérie. RF-DETR a atteint la plus haute précision moyenne (mAP50) de 0,9464 en détection à classe unique, démontrant sa capacité supérieure à localiser les fruits verts dans des scènes encombrées. Bien que YOLOv12N ait enregistré la plus haute mAP@50:95 de 0,7620, RF-DETR a constamment surpassé les autres dans des scénarios spatiaux complexes. Pour la détection multi-classes, RF-DETR a mené avec une mAP@50 de 0,8298, montrant sa capacité à différencier les fruits occlus des non occlus, tandis que YOLOv12L a obtenu le score le plus élevé en mAP@50:95 avec 0,6622, indiquant une meilleure classification dans des contextes d'occlusion détaillés. L'analyse de la dynamique d'apprentissage a mis en évidence la convergence rapide de RF-DETR, en particulier dans les configurations à classe unique où il a atteint un plateau en moins de 10 époques, démontrant l'efficacité des architectures basées sur les transformateurs pour s'adapter aux données visuelles dynamiques. Ces résultats valident l'efficacité de RF-DETR pour les applications agricoles de précision, tandis que YOLOv12 est adapté aux scénarios nécessitant une réponse rapide. >Termes indexés : Détection d'objets RF-DETR, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Transformers de détection, CNN.

English

This study conducts a detailed comparison of RF-DETR object detection base model and YOLOv12 object detection model configurations for detecting greenfruits in a complex orchard environment marked by label ambiguity, occlusions, and background blending. A custom dataset was developed featuring both single-class (greenfruit) and multi-class (occluded and non-occluded greenfruits) annotations to assess model performance under dynamic real-world conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and deformable attention, excelled in global context modeling, effectively identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12 leveraged CNN-based attention for enhanced local feature extraction, optimizing it for computational efficiency and edge deployment. RF-DETR achieved the highest mean Average Precision (mAP50) of 0.9464 in single-class detection, proving its superior ability to localize greenfruits in cluttered scenes. Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR consistently outperformed in complex spatial scenarios. For multi-class detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to differentiate between occluded and non-occluded fruits, while YOLOv12L scored highest in mAP@50:95 with 0.6622, indicating better classification in detailed occlusion contexts. Training dynamics analysis highlighted RF-DETR's swift convergence, particularly in single-class settings where it plateaued within 10 epochs, demonstrating the efficiency of transformer-based architectures in adapting to dynamic visual data. These findings validate RF-DETR's effectiveness for precision agricultural applications, with YOLOv12 suited for fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs

RF-DETR Détection d'Objets vs YOLOv12 : Une Étude des Architectures Basées sur les Transformers et les CNN pour la Détection de Fruits Verts en Classe Unique et Multi-Classes dans des Environnements Complexes de Vergers sous Ambiguïté d'Étiquetage

RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

papers.abstract

Support