Correlación del Rendimiento de la Detección de Objetos con la Saliencia Visual y la Estimación de Profundidad
Correlation of Object Detection Performance with Visual Saliency and Depth Estimation
November 5, 2024
Autores: Matthias Bartolo, Dylan Seychell
cs.AI
Resumen
A medida que las técnicas de detección de objetos continúan evolucionando, comprender sus relaciones con tareas visuales complementarias se vuelve crucial para optimizar las arquitecturas de modelos y los recursos computacionales. Este artículo investiga las correlaciones entre la precisión de la detección de objetos y dos tareas visuales fundamentales: la predicción de profundidad y la predicción de saliencia visual. A través de experimentos exhaustivos utilizando modelos de última generación (DeepGaze IIE, Depth Anything, DPT-Large y el modelo de Itti) en conjuntos de datos COCO y Pascal VOC, encontramos que la saliencia visual muestra correlaciones consistentemente más fuertes con la precisión de la detección de objetos (mArho de hasta 0.459 en Pascal VOC) en comparación con la predicción de profundidad (mArho de hasta 0.283). Nuestro análisis revela variaciones significativas en estas correlaciones entre las categorías de objetos, con objetos más grandes mostrando valores de correlación hasta tres veces más altos que los objetos más pequeños. Estos hallazgos sugieren que la incorporación de características de saliencia visual en las arquitecturas de detección de objetos podría ser más beneficiosa que la información de profundidad, especialmente para categorías de objetos específicas. Las variaciones observadas específicas de categoría también proporcionan información para la ingeniería de características dirigida y mejoras en el diseño de conjuntos de datos, lo que podría llevar a sistemas de detección de objetos más eficientes y precisos.
English
As object detection techniques continue to evolve, understanding their
relationships with complementary visual tasks becomes crucial for optimising
model architectures and computational resources. This paper investigates the
correlations between object detection accuracy and two fundamental visual
tasks: depth prediction and visual saliency prediction. Through comprehensive
experiments using state-of-the-art models (DeepGaze IIE, Depth Anything,
DPT-Large, and Itti's model) on COCO and Pascal VOC datasets, we find that
visual saliency shows consistently stronger correlations with object detection
accuracy (mArho up to 0.459 on Pascal VOC) compared to depth prediction
(mArho up to 0.283). Our analysis reveals significant variations in these
correlations across object categories, with larger objects showing correlation
values up to three times higher than smaller objects. These findings suggest
incorporating visual saliency features into object detection architectures
could be more beneficial than depth information, particularly for specific
object categories. The observed category-specific variations also provide
insights for targeted feature engineering and dataset design improvements,
potentially leading to more efficient and accurate object detection systems.Summary
AI-Generated Summary