視覚的顕著性と深度推定との物体検出性能の相関
Correlation of Object Detection Performance with Visual Saliency and Depth Estimation
November 5, 2024
著者: Matthias Bartolo, Dylan Seychell
cs.AI
要旨
物体検出技術が進化を続ける中、補完的な視覚タスクとの関係を理解することは、モデルアーキテクチャや計算リソースを最適化する上で重要です。本論文では、物体検出精度と2つの基本的な視覚タスク、深度予測と視覚的際立ち予測との相関を調査しています。COCOおよびPascal VOCデータセット上で、最先端のモデル(DeepGaze IIE、Depth Anything、DPT-Large、Ittiのモデル)を用いた包括的な実験を通じて、視覚的際立ちが物体検出精度と一貫して強い相関を示すことを発見しました(Pascal VOCにおいてmArhoが最大0.459)。一方、深度予測は(mArhoが最大0.283となる)より弱い相関を示しました。我々の分析により、異なる物体カテゴリ間でこれらの相関に大きな変動があることが明らかとなり、大きな物体ほど小さな物体よりも相関値が最大3倍高いことが示されました。これらの知見から、物体検出アーキテクチャに視覚的際立ち特徴を組み込むことが、特定の物体カテゴリにとって深度情報よりも有益である可能性が示唆されます。観察されたカテゴリ固有の変動は、対象となる特徴量エンジニアリングやデータセット設計の改善に向けた洞察を提供し、より効率的で正確な物体検出システムへとつながる可能性があります。
English
As object detection techniques continue to evolve, understanding their
relationships with complementary visual tasks becomes crucial for optimising
model architectures and computational resources. This paper investigates the
correlations between object detection accuracy and two fundamental visual
tasks: depth prediction and visual saliency prediction. Through comprehensive
experiments using state-of-the-art models (DeepGaze IIE, Depth Anything,
DPT-Large, and Itti's model) on COCO and Pascal VOC datasets, we find that
visual saliency shows consistently stronger correlations with object detection
accuracy (mArho up to 0.459 on Pascal VOC) compared to depth prediction
(mArho up to 0.283). Our analysis reveals significant variations in these
correlations across object categories, with larger objects showing correlation
values up to three times higher than smaller objects. These findings suggest
incorporating visual saliency features into object detection architectures
could be more beneficial than depth information, particularly for specific
object categories. The observed category-specific variations also provide
insights for targeted feature engineering and dataset design improvements,
potentially leading to more efficient and accurate object detection systems.Summary
AI-Generated Summary