RF-DETR Détection d'Objets vs YOLOv12 : Une Étude des Architectures Basées sur les Transformers et les CNN pour la Détection de Fruits Verts en Classe Unique et Multi-Classes dans des Environnements Complexes de Vergers sous Ambiguïté d'Étiquetage
RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity
April 17, 2025
Auteurs: Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee
cs.AI
Résumé
Cette étude réalise une comparaison détaillée entre le modèle de base de détection d'objets RF-DETR et les configurations du modèle de détection d'objets YOLOv12 pour la détection de fruits verts dans un environnement complexe de verger marqué par une ambiguïté d'étiquetage, des occlusions et un mélange avec l'arrière-plan. Un jeu de données personnalisé a été développé, comportant des annotations à classe unique (fruits verts) et multi-classes (fruits verts occlus et non occlus) afin d'évaluer les performances des modèles dans des conditions dynamiques du monde réel. Le modèle de détection d'objets RF-DETR, utilisant une architecture DINOv2 et une attention déformable, a excellé dans la modélisation du contexte global, identifiant efficacement les fruits verts partiellement occlus ou ambigus. En revanche, YOLOv12 a exploité une attention basée sur les CNN pour une extraction améliorée des caractéristiques locales, l'optimisant ainsi pour l'efficacité computationnelle et le déploiement en périphérie. RF-DETR a atteint la plus haute précision moyenne (mAP50) de 0,9464 en détection à classe unique, démontrant sa capacité supérieure à localiser les fruits verts dans des scènes encombrées. Bien que YOLOv12N ait enregistré la plus haute mAP@50:95 de 0,7620, RF-DETR a constamment surpassé les autres dans des scénarios spatiaux complexes. Pour la détection multi-classes, RF-DETR a mené avec une mAP@50 de 0,8298, montrant sa capacité à différencier les fruits occlus des non occlus, tandis que YOLOv12L a obtenu le score le plus élevé en mAP@50:95 avec 0,6622, indiquant une meilleure classification dans des contextes d'occlusion détaillés. L'analyse de la dynamique d'apprentissage a mis en évidence la convergence rapide de RF-DETR, en particulier dans les configurations à classe unique où il a atteint un plateau en moins de 10 époques, démontrant l'efficacité des architectures basées sur les transformateurs pour s'adapter aux données visuelles dynamiques. Ces résultats valident l'efficacité de RF-DETR pour les applications agricoles de précision, tandis que YOLOv12 est adapté aux scénarios nécessitant une réponse rapide. >Termes indexés : Détection d'objets RF-DETR, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Transformers de détection, CNN.
English
This study conducts a detailed comparison of RF-DETR object detection base
model and YOLOv12 object detection model configurations for detecting
greenfruits in a complex orchard environment marked by label ambiguity,
occlusions, and background blending. A custom dataset was developed featuring
both single-class (greenfruit) and multi-class (occluded and non-occluded
greenfruits) annotations to assess model performance under dynamic real-world
conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and
deformable attention, excelled in global context modeling, effectively
identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12
leveraged CNN-based attention for enhanced local feature extraction, optimizing
it for computational efficiency and edge deployment. RF-DETR achieved the
highest mean Average Precision (mAP50) of 0.9464 in single-class detection,
proving its superior ability to localize greenfruits in cluttered scenes.
Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR
consistently outperformed in complex spatial scenarios. For multi-class
detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to
differentiate between occluded and non-occluded fruits, while YOLOv12L scored
highest in mAP@50:95 with 0.6622, indicating better classification in detailed
occlusion contexts. Training dynamics analysis highlighted RF-DETR's swift
convergence, particularly in single-class settings where it plateaued within 10
epochs, demonstrating the efficiency of transformer-based architectures in
adapting to dynamic visual data. These findings validate RF-DETR's
effectiveness for precision agricultural applications, with YOLOv12 suited for
fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12,
YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once,
Roboflow, Detection Transformers, CNNsSummary
AI-Generated Summary