Detección de Objetos RF-DETR vs YOLOv12: Un Estudio de Arquitecturas Basadas en Transformers y CNN para la Detección de Frutos Verdes en Clases Únicas y Múltiples en Entornos Complejos de Huertos Bajo Ambiguidad de Etiquetas
RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity
April 17, 2025
Autores: Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee
cs.AI
Resumen
Este estudio realiza una comparación detallada entre el modelo base de detección de objetos RF-DETR y las configuraciones del modelo de detección de objetos YOLOv12 para la detección de frutos verdes en un entorno complejo de huertos caracterizado por ambigüedad en las etiquetas, oclusiones y mezcla con el fondo. Se desarrolló un conjunto de datos personalizado que incluye anotaciones de una sola clase (fruto verde) y múltiples clases (frutos verdes ocluidos y no ocluidos) para evaluar el rendimiento de los modelos en condiciones dinámicas del mundo real. El modelo de detección de objetos RF-DETR, que utiliza una arquitectura DINOv2 y atención deformable, destacó en el modelado de contexto global, identificando eficazmente frutos verdes parcialmente ocluidos o ambiguos. En contraste, YOLOv12 aprovechó la atención basada en CNN para una mejor extracción de características locales, optimizándolo para la eficiencia computacional y el despliegue en dispositivos de borde. RF-DETR logró el mayor valor de Precisión Media Promedio (mAP50) de 0.9464 en la detección de una sola clase, demostrando su capacidad superior para localizar frutos verdes en escenarios desordenados. Aunque YOLOv12N registró el mayor mAP@50:95 de 0.7620, RF-DETR superó consistentemente en escenarios espaciales complejos. Para la detección de múltiples clases, RF-DETR lideró con un mAP@50 de 0.8298, mostrando su capacidad para diferenciar entre frutos ocluidos y no ocluidos, mientras que YOLOv12L obtuvo el mayor mAP@50:95 con 0.6622, indicando una mejor clasificación en contextos de oclusión detallada. El análisis de la dinámica de entrenamiento destacó la rápida convergencia de RF-DETR, particularmente en configuraciones de una sola clase, donde alcanzó una meseta en menos de 10 épocas, demostrando la eficiencia de las arquitecturas basadas en transformadores para adaptarse a datos visuales dinámicos. Estos hallazgos validan la efectividad de RF-DETR para aplicaciones agrícolas de precisión, mientras que YOLOv12 es adecuado para escenarios que requieren respuestas rápidas. >Términos clave: RF-DETR, detección de objetos, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Transformers de Detección, CNN.
English
This study conducts a detailed comparison of RF-DETR object detection base
model and YOLOv12 object detection model configurations for detecting
greenfruits in a complex orchard environment marked by label ambiguity,
occlusions, and background blending. A custom dataset was developed featuring
both single-class (greenfruit) and multi-class (occluded and non-occluded
greenfruits) annotations to assess model performance under dynamic real-world
conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and
deformable attention, excelled in global context modeling, effectively
identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12
leveraged CNN-based attention for enhanced local feature extraction, optimizing
it for computational efficiency and edge deployment. RF-DETR achieved the
highest mean Average Precision (mAP50) of 0.9464 in single-class detection,
proving its superior ability to localize greenfruits in cluttered scenes.
Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR
consistently outperformed in complex spatial scenarios. For multi-class
detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to
differentiate between occluded and non-occluded fruits, while YOLOv12L scored
highest in mAP@50:95 with 0.6622, indicating better classification in detailed
occlusion contexts. Training dynamics analysis highlighted RF-DETR's swift
convergence, particularly in single-class settings where it plateaued within 10
epochs, demonstrating the efficiency of transformer-based architectures in
adapting to dynamic visual data. These findings validate RF-DETR's
effectiveness for precision agricultural applications, with YOLOv12 suited for
fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12,
YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once,
Roboflow, Detection Transformers, CNNsSummary
AI-Generated Summary