Корреляция производительности обнаружения объектов с визуальной выразительностью и оценкой глубины.
Correlation of Object Detection Performance with Visual Saliency and Depth Estimation
November 5, 2024
Авторы: Matthias Bartolo, Dylan Seychell
cs.AI
Аннотация
Поскольку техники обнаружения объектов продолжают развиваться, понимание их взаимосвязи с дополнительными визуальными задачами становится важным для оптимизации архитектур моделей и вычислительных ресурсов. В данной статье исследуются корреляции между точностью обнаружения объектов и двумя фундаментальными визуальными задачами: предсказанием глубины и предсказанием визуальной выразительности. Через комплексные эксперименты с использованием передовых моделей (DeepGaze IIE, Depth Anything, DPT-Large и модель Итти) на наборах данных COCO и Pascal VOC мы обнаружили, что визуальная выразительность показывает последовательно более сильные корреляции с точностью обнаружения объектов (mArho до 0,459 на Pascal VOC) по сравнению с предсказанием глубины (mArho до 0,283). Наш анализ выявляет значительные вариации в этих корреляциях по категориям объектов, причем более крупные объекты показывают значения корреляции в три раза выше, чем более мелкие объекты. Эти результаты подтверждают, что включение признаков визуальной выразительности в архитектуры обнаружения объектов может быть более полезным, чем информация о глубине, особенно для определенных категорий объектов. Наблюдаемые категорий-специфические вариации также предоставляют информацию для целевой инженерии признаков и улучшений дизайна наборов данных, что потенциально может привести к более эффективным и точным системам обнаружения объектов.
English
As object detection techniques continue to evolve, understanding their
relationships with complementary visual tasks becomes crucial for optimising
model architectures and computational resources. This paper investigates the
correlations between object detection accuracy and two fundamental visual
tasks: depth prediction and visual saliency prediction. Through comprehensive
experiments using state-of-the-art models (DeepGaze IIE, Depth Anything,
DPT-Large, and Itti's model) on COCO and Pascal VOC datasets, we find that
visual saliency shows consistently stronger correlations with object detection
accuracy (mArho up to 0.459 on Pascal VOC) compared to depth prediction
(mArho up to 0.283). Our analysis reveals significant variations in these
correlations across object categories, with larger objects showing correlation
values up to three times higher than smaller objects. These findings suggest
incorporating visual saliency features into object detection architectures
could be more beneficial than depth information, particularly for specific
object categories. The observed category-specific variations also provide
insights for targeted feature engineering and dataset design improvements,
potentially leading to more efficient and accurate object detection systems.Summary
AI-Generated Summary