ILIAS: Recuperación de imágenes a nivel de instancia a gran escala
ILIAS: Instance-Level Image retrieval At Scale
February 17, 2025
Autores: Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias
cs.AI
Resumen
Este trabajo presenta ILIAS, un nuevo conjunto de datos de prueba para la recuperación de imágenes a nivel de instancia a gran escala. Está diseñado para evaluar la capacidad de los modelos base actuales y futuros, así como de las técnicas de recuperación, para reconocer objetos específicos. Las principales ventajas sobre los conjuntos de datos existentes incluyen su gran escala, diversidad de dominios, precisión en la verdad de campo y un rendimiento que está lejos de estar saturado. ILIAS incluye imágenes de consulta y positivas para 1,000 instancias de objetos, recolectadas manualmente para capturar condiciones desafiantes y dominios diversos. La recuperación a gran escala se realiza frente a 100 millones de imágenes distractoras de YFCC100M. Para evitar falsos negativos sin necesidad de anotación adicional, solo se incluyen objetos de consulta confirmados que surgieron después de 2014, es decir, la fecha de compilación de YFCC100M. Se realiza una evaluación extensiva con las siguientes observaciones: i) los modelos ajustados en dominios específicos, como lugares emblemáticos o productos, destacan en ese dominio pero fallan en ILIAS; ii) aprender una capa de adaptación lineal utilizando supervisión de clases multi-dominio resulta en mejoras de rendimiento, especialmente para modelos de visión y lenguaje; iii) los descriptores locales en la reordenación de la recuperación siguen siendo un componente clave, especialmente en presencia de fondos muy desordenados; iv) el rendimiento de los modelos base de visión y lenguaje en la tarea de texto a imagen es sorprendentemente cercano al caso correspondiente de imagen a imagen. Sitio web: https://vrg.fel.cvut.cz/ilias/
English
This work introduces ILIAS, a new test dataset for Instance-Level Image
retrieval At Scale. It is designed to evaluate the ability of current and
future foundation models and retrieval techniques to recognize particular
objects. The key benefits over existing datasets include large scale, domain
diversity, accurate ground truth, and a performance that is far from saturated.
ILIAS includes query and positive images for 1,000 object instances, manually
collected to capture challenging conditions and diverse domains. Large-scale
retrieval is conducted against 100 million distractor images from YFCC100M. To
avoid false negatives without extra annotation effort, we include only query
objects confirmed to have emerged after 2014, i.e. the compilation date of
YFCC100M. An extensive benchmarking is performed with the following
observations: i) models fine-tuned on specific domains, such as landmarks or
products, excel in that domain but fail on ILIAS ii) learning a linear
adaptation layer using multi-domain class supervision results in performance
improvements, especially for vision-language models iii) local descriptors in
retrieval re-ranking are still a key ingredient, especially in the presence of
severe background clutter iv) the text-to-image performance of the
vision-language foundation models is surprisingly close to the corresponding
image-to-image case. website: https://vrg.fel.cvut.cz/ilias/Summary
AI-Generated Summary