RF-DETR для обнаружения объектов против YOLOv12: исследование архитектур на основе трансформеров и сверточных нейронных сетей для обнаружения зеленых плодов в условиях сложной среды сада при неоднозначности меток в задачах с одним и несколькими классами

Аннотация

В данном исследовании проводится детальное сравнение базовой модели обнаружения объектов RF-DETR и конфигураций модели обнаружения объектов YOLOv12 для выявления зеленых плодов в сложной среде сада, характеризующейся неоднозначностью меток, перекрытиями и смешением с фоном. Был разработан специализированный набор данных, включающий как одноклассовые (зеленые плоды), так и многоклассовые (перекрытые и неперекрытые зеленые плоды) аннотации для оценки производительности моделей в динамичных реальных условиях. Модель обнаружения объектов RF-DETR, использующая основу DINOv2 и деформируемое внимание, продемонстрировала превосходство в моделировании глобального контекста, эффективно идентифицируя частично перекрытые или неоднозначные зеленые плоды. В то же время YOLOv12 использовала внимание на основе CNN для улучшенного извлечения локальных признаков, что оптимизировало её для вычислительной эффективности и развертывания на периферийных устройствах. RF-DETR достигла наивысшего среднего значения точности (mAP50) 0,9464 в одноклассовом обнаружении, подтвердив своё превосходство в локализации зеленых плодов в сложных сценах. Хотя YOLOv12N зафиксировала наивысшее значение mAP@50:95 0,7620, RF-DETR стабильно превосходила в сложных пространственных сценариях. В многоклассовом обнаружении RF-DETR лидировала с mAP@50 0,8298, демонстрируя способность различать перекрытые и неперекрытые плоды, в то время как YOLOv12L показала наивысший результат в mAP@50:95 с 0,6622, что указывает на лучшее классифицирование в контекстах с детальными перекрытиями. Анализ динамики обучения подчеркнул быстрое сходимость RF-DETR, особенно в одноклассовых настройках, где она достигла плато в течение 10 эпох, демонстрируя эффективность архитектур на основе трансформеров в адаптации к динамическим визуальным данным. Эти результаты подтверждают эффективность RF-DETR для задач точного сельского хозяйства, в то время как YOLOv12 подходит для сценариев, требующих быстрого реагирования. >Ключевые термины: RF-DETR обнаружение объектов, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNN.

English

This study conducts a detailed comparison of RF-DETR object detection base model and YOLOv12 object detection model configurations for detecting greenfruits in a complex orchard environment marked by label ambiguity, occlusions, and background blending. A custom dataset was developed featuring both single-class (greenfruit) and multi-class (occluded and non-occluded greenfruits) annotations to assess model performance under dynamic real-world conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and deformable attention, excelled in global context modeling, effectively identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12 leveraged CNN-based attention for enhanced local feature extraction, optimizing it for computational efficiency and edge deployment. RF-DETR achieved the highest mean Average Precision (mAP50) of 0.9464 in single-class detection, proving its superior ability to localize greenfruits in cluttered scenes. Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR consistently outperformed in complex spatial scenarios. For multi-class detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to differentiate between occluded and non-occluded fruits, while YOLOv12L scored highest in mAP@50:95 with 0.6622, indicating better classification in detailed occlusion contexts. Training dynamics analysis highlighted RF-DETR's swift convergence, particularly in single-class settings where it plateaued within 10 epochs, demonstrating the efficiency of transformer-based architectures in adapting to dynamic visual data. These findings validate RF-DETR's effectiveness for precision agricultural applications, with YOLOv12 suited for fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs

RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

Аннотация

Support