RF-DETR для обнаружения объектов против YOLOv12: исследование архитектур на основе трансформеров и сверточных нейронных сетей для обнаружения зеленых плодов в условиях сложной среды сада при неоднозначности меток в задачах с одним и несколькими классами
RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity
April 17, 2025
Авторы: Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee
cs.AI
Аннотация
В данном исследовании проводится детальное сравнение базовой модели обнаружения объектов RF-DETR и конфигураций модели обнаружения объектов YOLOv12 для выявления зеленых плодов в сложной среде сада, характеризующейся неоднозначностью меток, перекрытиями и смешением с фоном. Был разработан специализированный набор данных, включающий как одноклассовые (зеленые плоды), так и многоклассовые (перекрытые и неперекрытые зеленые плоды) аннотации для оценки производительности моделей в динамичных реальных условиях. Модель обнаружения объектов RF-DETR, использующая основу DINOv2 и деформируемое внимание, продемонстрировала превосходство в моделировании глобального контекста, эффективно идентифицируя частично перекрытые или неоднозначные зеленые плоды. В то же время YOLOv12 использовала внимание на основе CNN для улучшенного извлечения локальных признаков, что оптимизировало её для вычислительной эффективности и развертывания на периферийных устройствах. RF-DETR достигла наивысшего среднего значения точности (mAP50) 0,9464 в одноклассовом обнаружении, подтвердив своё превосходство в локализации зеленых плодов в сложных сценах. Хотя YOLOv12N зафиксировала наивысшее значение mAP@50:95 0,7620, RF-DETR стабильно превосходила в сложных пространственных сценариях. В многоклассовом обнаружении RF-DETR лидировала с mAP@50 0,8298, демонстрируя способность различать перекрытые и неперекрытые плоды, в то время как YOLOv12L показала наивысший результат в mAP@50:95 с 0,6622, что указывает на лучшее классифицирование в контекстах с детальными перекрытиями. Анализ динамики обучения подчеркнул быстрое сходимость RF-DETR, особенно в одноклассовых настройках, где она достигла плато в течение 10 эпох, демонстрируя эффективность архитектур на основе трансформеров в адаптации к динамическим визуальным данным. Эти результаты подтверждают эффективность RF-DETR для задач точного сельского хозяйства, в то время как YOLOv12 подходит для сценариев, требующих быстрого реагирования. >Ключевые термины: RF-DETR обнаружение объектов, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNN.
English
This study conducts a detailed comparison of RF-DETR object detection base
model and YOLOv12 object detection model configurations for detecting
greenfruits in a complex orchard environment marked by label ambiguity,
occlusions, and background blending. A custom dataset was developed featuring
both single-class (greenfruit) and multi-class (occluded and non-occluded
greenfruits) annotations to assess model performance under dynamic real-world
conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and
deformable attention, excelled in global context modeling, effectively
identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12
leveraged CNN-based attention for enhanced local feature extraction, optimizing
it for computational efficiency and edge deployment. RF-DETR achieved the
highest mean Average Precision (mAP50) of 0.9464 in single-class detection,
proving its superior ability to localize greenfruits in cluttered scenes.
Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR
consistently outperformed in complex spatial scenarios. For multi-class
detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to
differentiate between occluded and non-occluded fruits, while YOLOv12L scored
highest in mAP@50:95 with 0.6622, indicating better classification in detailed
occlusion contexts. Training dynamics analysis highlighted RF-DETR's swift
convergence, particularly in single-class settings where it plateaued within 10
epochs, demonstrating the efficiency of transformer-based architectures in
adapting to dynamic visual data. These findings validate RF-DETR's
effectiveness for precision agricultural applications, with YOLOv12 suited for
fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12,
YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once,
Roboflow, Detection Transformers, CNNsSummary
AI-Generated Summary