ILIAS : Recherche d'images au niveau des instances à grande échelle
ILIAS: Instance-Level Image retrieval At Scale
February 17, 2025
Auteurs: Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias
cs.AI
Résumé
Ce travail présente ILIAS, un nouveau jeu de données de test pour la recherche d'images au niveau des instances à grande échelle. Il est conçu pour évaluer la capacité des modèles de base actuels et futurs, ainsi que des techniques de recherche, à reconnaître des objets spécifiques. Les principaux avantages par rapport aux jeux de données existants incluent une grande échelle, une diversité de domaines, une vérité terrain précise et des performances loin d'être saturées. ILIAS comprend des images de requête et des images positives pour 1 000 instances d'objets, collectées manuellement pour capturer des conditions difficiles et des domaines variés. La recherche à grande échelle est effectuée contre 100 millions d'images distractrices provenant de YFCC100M. Pour éviter les faux négatifs sans effort d'annotation supplémentaire, nous incluons uniquement les objets de requête confirmés comme ayant émergé après 2014, c'est-à-dire la date de compilation de YFCC100M. Un benchmarking approfondi est réalisé avec les observations suivantes : i) les modèles affinés sur des domaines spécifiques, tels que les monuments ou les produits, excellent dans ce domaine mais échouent sur ILIAS ; ii) l'apprentissage d'une couche d'adaptation linéaire en utilisant une supervision de classe multi-domaine entraîne des améliorations de performance, en particulier pour les modèles vision-langage ; iii) les descripteurs locaux dans le reclassement de la recherche restent un élément clé, en particulier en présence d'un encombrement de fond sévère ; iv) la performance des modèles de base vision-langage dans le cas texte-image est étonnamment proche de celle du cas image-image. Site web : https://vrg.fel.cvut.cz/ilias/
English
This work introduces ILIAS, a new test dataset for Instance-Level Image
retrieval At Scale. It is designed to evaluate the ability of current and
future foundation models and retrieval techniques to recognize particular
objects. The key benefits over existing datasets include large scale, domain
diversity, accurate ground truth, and a performance that is far from saturated.
ILIAS includes query and positive images for 1,000 object instances, manually
collected to capture challenging conditions and diverse domains. Large-scale
retrieval is conducted against 100 million distractor images from YFCC100M. To
avoid false negatives without extra annotation effort, we include only query
objects confirmed to have emerged after 2014, i.e. the compilation date of
YFCC100M. An extensive benchmarking is performed with the following
observations: i) models fine-tuned on specific domains, such as landmarks or
products, excel in that domain but fail on ILIAS ii) learning a linear
adaptation layer using multi-domain class supervision results in performance
improvements, especially for vision-language models iii) local descriptors in
retrieval re-ranking are still a key ingredient, especially in the presence of
severe background clutter iv) the text-to-image performance of the
vision-language foundation models is surprisingly close to the corresponding
image-to-image case. website: https://vrg.fel.cvut.cz/ilias/Summary
AI-Generated Summary