ChatPaper.aiChatPaper

ILIAS: 大規模インスタンスレベル画像検索

ILIAS: Instance-Level Image retrieval At Scale

February 17, 2025
著者: Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias
cs.AI

要旨

本研究では、大規模インスタンスレベル画像検索のための新しいテストデータセット「ILIAS」を紹介する。このデータセットは、現在および将来の基盤モデルと検索技術が特定の物体を認識する能力を評価するために設計されている。既存のデータセットに対する主な利点は、大規模性、ドメイン多様性、正確なグラウンドトゥルース、そして飽和状態から程遠い性能である。ILIASには、1,000の物体インスタンスに対するクエリ画像とポジティブ画像が含まれており、手作業で収集され、挑戦的な条件と多様なドメインを捉えている。大規模検索は、YFCC100Mからの1億枚のディストラクター画像に対して行われる。追加のアノテーション作業なしに偽陰性を避けるため、2014年以降(YFCC100Mの編纂日)に出現したことが確認されたクエリオブジェクトのみを含めている。広範なベンチマークを行い、以下の観察結果を得た:i) ランドマークや製品などの特定のドメインでファインチューニングされたモデルは、そのドメインでは優れているが、ILIASでは失敗する ii) マルチドメインクラス監視を使用して線形適応層を学習すると、特に視覚言語モデルで性能が向上する iii) 検索の再ランキングにおけるローカル記述子は、特に背景の雑多さが激しい場合に重要な要素である iv) 視覚言語基盤モデルのテキストから画像への性能は、対応する画像から画像の場合に驚くほど近い。ウェブサイト: https://vrg.fel.cvut.cz/ilias/
English
This work introduces ILIAS, a new test dataset for Instance-Level Image retrieval At Scale. It is designed to evaluate the ability of current and future foundation models and retrieval techniques to recognize particular objects. The key benefits over existing datasets include large scale, domain diversity, accurate ground truth, and a performance that is far from saturated. ILIAS includes query and positive images for 1,000 object instances, manually collected to capture challenging conditions and diverse domains. Large-scale retrieval is conducted against 100 million distractor images from YFCC100M. To avoid false negatives without extra annotation effort, we include only query objects confirmed to have emerged after 2014, i.e. the compilation date of YFCC100M. An extensive benchmarking is performed with the following observations: i) models fine-tuned on specific domains, such as landmarks or products, excel in that domain but fail on ILIAS ii) learning a linear adaptation layer using multi-domain class supervision results in performance improvements, especially for vision-language models iii) local descriptors in retrieval re-ranking are still a key ingredient, especially in the presence of severe background clutter iv) the text-to-image performance of the vision-language foundation models is surprisingly close to the corresponding image-to-image case. website: https://vrg.fel.cvut.cz/ilias/

Summary

AI-Generated Summary

PDF42February 18, 2025