ILIAS: Recupero di immagini a livello di istanza su larga scala
ILIAS: Instance-Level Image retrieval At Scale
February 17, 2025
Autori: Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias
cs.AI
Abstract
Questo lavoro introduce ILIAS, un nuovo dataset di test per il recupero di immagini a livello di istanza su larga scala. È progettato per valutare la capacità dei modelli di base attuali e futuri, nonché delle tecniche di recupero, di riconoscere oggetti specifici. I principali vantaggi rispetto ai dataset esistenti includono la grande scala, la diversità di dominio, la verità di base accurata e una performance che è ben lontana dalla saturazione. ILIAS include immagini di query e immagini positive per 1.000 istanze di oggetti, raccolte manualmente per catturare condizioni complesse e domini diversificati. Il recupero su larga scala viene effettuato rispetto a 100 milioni di immagini distrattori provenienti da YFCC100M. Per evitare falsi negativi senza sforzi aggiuntivi di annotazione, includiamo solo oggetti di query confermati essere emersi dopo il 2014, ovvero la data di compilazione di YFCC100M. È stato eseguito un ampio benchmarking con le seguenti osservazioni: i) i modelli ottimizzati su domini specifici, come punti di riferimento o prodotti, eccellono in quel dominio ma falliscono su ILIAS; ii) l'apprendimento di uno strato di adattamento lineare utilizzando la supervisione di classi multi-dominio porta a miglioramenti delle prestazioni, specialmente per i modelli visione-linguaggio; iii) i descrittori locali nel riordinamento del recupero rimangono un ingrediente chiave, specialmente in presenza di un grave disordine di sfondo; iv) la performance da testo a immagine dei modelli di base visione-linguaggio è sorprendentemente vicina al corrispondente caso da immagine a immagine. Sito web: https://vrg.fel.cvut.cz/ilias/
English
This work introduces ILIAS, a new test dataset for Instance-Level Image
retrieval At Scale. It is designed to evaluate the ability of current and
future foundation models and retrieval techniques to recognize particular
objects. The key benefits over existing datasets include large scale, domain
diversity, accurate ground truth, and a performance that is far from saturated.
ILIAS includes query and positive images for 1,000 object instances, manually
collected to capture challenging conditions and diverse domains. Large-scale
retrieval is conducted against 100 million distractor images from YFCC100M. To
avoid false negatives without extra annotation effort, we include only query
objects confirmed to have emerged after 2014, i.e. the compilation date of
YFCC100M. An extensive benchmarking is performed with the following
observations: i) models fine-tuned on specific domains, such as landmarks or
products, excel in that domain but fail on ILIAS ii) learning a linear
adaptation layer using multi-domain class supervision results in performance
improvements, especially for vision-language models iii) local descriptors in
retrieval re-ranking are still a key ingredient, especially in the presence of
severe background clutter iv) the text-to-image performance of the
vision-language foundation models is surprisingly close to the corresponding
image-to-image case. website: https://vrg.fel.cvut.cz/ilias/