ILIAS: Поиск изображений на уровне экземпляров в масштабе
ILIAS: Instance-Level Image retrieval At Scale
February 17, 2025
Авторы: Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias
cs.AI
Аннотация
Данная работа представляет ILIAS — новый тестовый набор данных для задач поиска изображений на уровне экземпляров в масштабе. Он предназначен для оценки способности современных и будущих базовых моделей и методов поиска распознавать конкретные объекты. Основные преимущества перед существующими наборами данных включают масштабность, разнообразие доменов, точные эталонные данные и производительность, далекую от насыщения. ILIAS содержит запросы и положительные изображения для 1 000 экземпляров объектов, собранных вручную для отражения сложных условий и разнообразных областей. Масштабный поиск осуществляется среди 100 миллионов отвлекающих изображений из YFCC100M. Чтобы избежать ложных отрицательных результатов без дополнительных усилий по аннотированию, мы включаем только объекты запросов, появление которых подтверждено после 2014 года, то есть даты составления YFCC100M. Проведено обширное тестирование, в ходе которого сделаны следующие наблюдения: i) модели, дообученные на конкретных доменах, таких как достопримечательности или товары, показывают отличные результаты в этих доменах, но терпят неудачу на ILIAS; ii) обучение линейного адаптационного слоя с использованием мультидоменного классового надзора приводит к улучшению производительности, особенно для моделей, работающих с визуальными и текстовыми данными; iii) локальные дескрипторы при повторном ранжировании поиска остаются ключевым компонентом, особенно в условиях сильного фонового шума; iv) производительность базовых моделей, работающих с текстом и изображениями, при поиске по тексту удивительно близка к случаю поиска по изображению. Веб-сайт: https://vrg.fel.cvut.cz/ilias/
English
This work introduces ILIAS, a new test dataset for Instance-Level Image
retrieval At Scale. It is designed to evaluate the ability of current and
future foundation models and retrieval techniques to recognize particular
objects. The key benefits over existing datasets include large scale, domain
diversity, accurate ground truth, and a performance that is far from saturated.
ILIAS includes query and positive images for 1,000 object instances, manually
collected to capture challenging conditions and diverse domains. Large-scale
retrieval is conducted against 100 million distractor images from YFCC100M. To
avoid false negatives without extra annotation effort, we include only query
objects confirmed to have emerged after 2014, i.e. the compilation date of
YFCC100M. An extensive benchmarking is performed with the following
observations: i) models fine-tuned on specific domains, such as landmarks or
products, excel in that domain but fail on ILIAS ii) learning a linear
adaptation layer using multi-domain class supervision results in performance
improvements, especially for vision-language models iii) local descriptors in
retrieval re-ranking are still a key ingredient, especially in the presence of
severe background clutter iv) the text-to-image performance of the
vision-language foundation models is surprisingly close to the corresponding
image-to-image case. website: https://vrg.fel.cvut.cz/ilias/