RF-DETR 객체 탐지 대 YOLOv12: 복잡한 과수원 환경에서 라벨 모호성 하의 단일 클래스 및 다중 클래스 그린프룻 탐지를 위한 트랜스포머 기반과 CNN 기반 아키텍처 비교 연구
RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity
April 17, 2025
저자: Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee
cs.AI
초록
본 연구는 라벨 모호성, 가림 현상, 배경 혼합 등이 특징인 복잡한 과수원 환경에서 녹색 과일을 탐지하기 위해 RF-DETR 객체 탐지 기본 모델과 YOLOv12 객체 탐지 모델 구성을 상세히 비교하였다. 단일 클래스(녹색 과일) 및 다중 클래스(가려진 및 가려지지 않은 녹색 과일) 주석을 포함한 맞춤형 데이터셋을 개발하여 동적 실세계 조건에서의 모델 성능을 평가하였다. DINOv2 백본과 변형 가능한 어텐션을 활용한 RF-DETR 객체 탐지 모델은 전역 컨텍스트 모델링에서 우수한 성능을 보이며, 부분적으로 가려지거나 모호한 녹색 과일을 효과적으로 식별했다. 반면, YOLOv12는 CNN 기반 어텐션을 활용하여 향상된 지역 특징 추출을 통해 계산 효율성과 엣지 배포에 최적화되었다. RF-DETR은 단일 클래스 탐지에서 0.9464의 최고 평균 정밀도(mAP50)를 달성하여 복잡한 장면에서 녹색 과일을 정확히 위치 지정하는 우수한 능력을 입증했다. YOLOv12N은 mAP@50:95에서 0.7620의 최고 점수를 기록했지만, RF-DETR은 복잡한 공간 시나리오에서 꾸준히 더 나은 성능을 보였다. 다중 클래스 탐지에서 RF-DETR은 mAP@50에서 0.8298로 선두를 달리며 가려진 과일과 가려지지 않은 과일을 구분하는 능력을 보였고, YOLOv12L은 mAP@50:95에서 0.6622로 최고 점수를 기록하여 세부적인 가림 상황에서 더 나은 분류 능력을 나타냈다. 학습 동역학 분석은 RF-DETR의 빠른 수렴 속도를 강조했는데, 특히 단일 클래스 설정에서 10 에포크 내에 안정화되며, 동적 시각 데이터에 적응하는 트랜스포머 기반 아키텍처의 효율성을 입증했다. 이러한 결과는 정밀 농업 응용에 RF-DETR의 효과성을 검증하며, YOLOv12는 빠른 응답 시나리오에 적합함을 보여준다. >색인어: RF-DETR 객체 탐지, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, 탐지 트랜스포머, CNN
English
This study conducts a detailed comparison of RF-DETR object detection base
model and YOLOv12 object detection model configurations for detecting
greenfruits in a complex orchard environment marked by label ambiguity,
occlusions, and background blending. A custom dataset was developed featuring
both single-class (greenfruit) and multi-class (occluded and non-occluded
greenfruits) annotations to assess model performance under dynamic real-world
conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and
deformable attention, excelled in global context modeling, effectively
identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12
leveraged CNN-based attention for enhanced local feature extraction, optimizing
it for computational efficiency and edge deployment. RF-DETR achieved the
highest mean Average Precision (mAP50) of 0.9464 in single-class detection,
proving its superior ability to localize greenfruits in cluttered scenes.
Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR
consistently outperformed in complex spatial scenarios. For multi-class
detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to
differentiate between occluded and non-occluded fruits, while YOLOv12L scored
highest in mAP@50:95 with 0.6622, indicating better classification in detailed
occlusion contexts. Training dynamics analysis highlighted RF-DETR's swift
convergence, particularly in single-class settings where it plateaued within 10
epochs, demonstrating the efficiency of transformer-based architectures in
adapting to dynamic visual data. These findings validate RF-DETR's
effectiveness for precision agricultural applications, with YOLOv12 suited for
fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12,
YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once,
Roboflow, Detection Transformers, CNNsSummary
AI-Generated Summary