Detección de Objetos RF-DETR vs YOLOv12: Un Estudio de Arquitecturas Basadas en Transformers y CNN para la Detección de Frutos Verdes en Clases Únicas y Múltiples en Entornos Complejos de Huertos Bajo Ambiguidad de Etiquetas

Resumen

Este estudio realiza una comparación detallada entre el modelo base de detección de objetos RF-DETR y las configuraciones del modelo de detección de objetos YOLOv12 para la detección de frutos verdes en un entorno complejo de huertos caracterizado por ambigüedad en las etiquetas, oclusiones y mezcla con el fondo. Se desarrolló un conjunto de datos personalizado que incluye anotaciones de una sola clase (fruto verde) y múltiples clases (frutos verdes ocluidos y no ocluidos) para evaluar el rendimiento de los modelos en condiciones dinámicas del mundo real. El modelo de detección de objetos RF-DETR, que utiliza una arquitectura DINOv2 y atención deformable, destacó en el modelado de contexto global, identificando eficazmente frutos verdes parcialmente ocluidos o ambiguos. En contraste, YOLOv12 aprovechó la atención basada en CNN para una mejor extracción de características locales, optimizándolo para la eficiencia computacional y el despliegue en dispositivos de borde. RF-DETR logró el mayor valor de Precisión Media Promedio (mAP50) de 0.9464 en la detección de una sola clase, demostrando su capacidad superior para localizar frutos verdes en escenarios desordenados. Aunque YOLOv12N registró el mayor mAP@50:95 de 0.7620, RF-DETR superó consistentemente en escenarios espaciales complejos. Para la detección de múltiples clases, RF-DETR lideró con un mAP@50 de 0.8298, mostrando su capacidad para diferenciar entre frutos ocluidos y no ocluidos, mientras que YOLOv12L obtuvo el mayor mAP@50:95 con 0.6622, indicando una mejor clasificación en contextos de oclusión detallada. El análisis de la dinámica de entrenamiento destacó la rápida convergencia de RF-DETR, particularmente en configuraciones de una sola clase, donde alcanzó una meseta en menos de 10 épocas, demostrando la eficiencia de las arquitecturas basadas en transformadores para adaptarse a datos visuales dinámicos. Estos hallazgos validan la efectividad de RF-DETR para aplicaciones agrícolas de precisión, mientras que YOLOv12 es adecuado para escenarios que requieren respuestas rápidas. >Términos clave: RF-DETR, detección de objetos, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Transformers de Detección, CNN.

English

This study conducts a detailed comparison of RF-DETR object detection base model and YOLOv12 object detection model configurations for detecting greenfruits in a complex orchard environment marked by label ambiguity, occlusions, and background blending. A custom dataset was developed featuring both single-class (greenfruit) and multi-class (occluded and non-occluded greenfruits) annotations to assess model performance under dynamic real-world conditions. RF-DETR object detection model, utilizing a DINOv2 backbone and deformable attention, excelled in global context modeling, effectively identifying partially occluded or ambiguous greenfruits. In contrast, YOLOv12 leveraged CNN-based attention for enhanced local feature extraction, optimizing it for computational efficiency and edge deployment. RF-DETR achieved the highest mean Average Precision (mAP50) of 0.9464 in single-class detection, proving its superior ability to localize greenfruits in cluttered scenes. Although YOLOv12N recorded the highest mAP@50:95 of 0.7620, RF-DETR consistently outperformed in complex spatial scenarios. For multi-class detection, RF-DETR led with an mAP@50 of 0.8298, showing its capability to differentiate between occluded and non-occluded fruits, while YOLOv12L scored highest in mAP@50:95 with 0.6622, indicating better classification in detailed occlusion contexts. Training dynamics analysis highlighted RF-DETR's swift convergence, particularly in single-class settings where it plateaued within 10 epochs, demonstrating the efficiency of transformer-based architectures in adapting to dynamic visual data. These findings validate RF-DETR's effectiveness for precision agricultural applications, with YOLOv12 suited for fast-response scenarios. >Index Terms: RF-DETR object detection, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNNs

Detección de Objetos RF-DETR vs YOLOv12: Un Estudio de Arquitecturas Basadas en Transformers y CNN para la Detección de Frutos Verdes en Clases Únicas y Múltiples en Entornos Complejos de Huertos Bajo Ambiguidad de Etiquetas

RF-DETR Object Detection vs YOLOv12 : A Study of Transformer-based and CNN-based Architectures for Single-Class and Multi-Class Greenfruit Detection in Complex Orchard Environments Under Label Ambiguity

Resumen

Support