ILIAS: Recuperação de Imagens em Nível de Instância em Escala
ILIAS: Instance-Level Image retrieval At Scale
February 17, 2025
Autores: Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias
cs.AI
Resumo
Este trabalho apresenta o ILIAS, um novo conjunto de dados de teste para Recuperação de Imagens em Nível de Instância em Escala. Ele foi projetado para avaliar a capacidade de modelos base e técnicas de recuperação atuais e futuras de reconhecer objetos específicos. As principais vantagens em relação aos conjuntos de dados existentes incluem escala ampla, diversidade de domínios, anotações de verdade fundamental precisas e um desempenho que está longe de estar saturado. O ILIAS inclui imagens de consulta e positivas para 1.000 instâncias de objetos, coletadas manualmente para capturar condições desafiadoras e domínios diversos. A recuperação em larga escala é realizada contra 100 milhões de imagens distratoras do YFCC100M. Para evitar falsos negativos sem esforço adicional de anotação, incluímos apenas objetos de consulta confirmados como tendo surgido após 2014, ou seja, a data de compilação do YFCC100M. Uma extensa avaliação comparativa foi realizada com as seguintes observações: i) modelos ajustados para domínios específicos, como pontos turísticos ou produtos, se destacam nesse domínio, mas falham no ILIAS; ii) aprender uma camada de adaptação linear usando supervisão de classes de múltiplos domínios resulta em melhorias de desempenho, especialmente para modelos visão-linguagem; iii) descritores locais na reclassificação de recuperação ainda são um componente essencial, especialmente na presença de fundos muito desordenados; iv) o desempenho de modelos base visão-linguagem na tarefa de texto-para-imagem está surpreendentemente próximo ao caso correspondente de imagem-para-imagem. Site: https://vrg.fel.cvut.cz/ilias/
English
This work introduces ILIAS, a new test dataset for Instance-Level Image
retrieval At Scale. It is designed to evaluate the ability of current and
future foundation models and retrieval techniques to recognize particular
objects. The key benefits over existing datasets include large scale, domain
diversity, accurate ground truth, and a performance that is far from saturated.
ILIAS includes query and positive images for 1,000 object instances, manually
collected to capture challenging conditions and diverse domains. Large-scale
retrieval is conducted against 100 million distractor images from YFCC100M. To
avoid false negatives without extra annotation effort, we include only query
objects confirmed to have emerged after 2014, i.e. the compilation date of
YFCC100M. An extensive benchmarking is performed with the following
observations: i) models fine-tuned on specific domains, such as landmarks or
products, excel in that domain but fail on ILIAS ii) learning a linear
adaptation layer using multi-domain class supervision results in performance
improvements, especially for vision-language models iii) local descriptors in
retrieval re-ranking are still a key ingredient, especially in the presence of
severe background clutter iv) the text-to-image performance of the
vision-language foundation models is surprisingly close to the corresponding
image-to-image case. website: https://vrg.fel.cvut.cz/ilias/Summary
AI-Generated Summary