ChatPaper.aiChatPaper

ILIAS: Instanzbasierte Bildsuche in großem Maßstab

ILIAS: Instance-Level Image retrieval At Scale

February 17, 2025
Autoren: Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias
cs.AI

Zusammenfassung

Diese Arbeit stellt ILIAS vor, ein neues Testdatensatz für die Instanzbasierte Bildersuche im großen Maßstab. Es wurde entwickelt, um die Fähigkeit aktueller und zukünftiger Foundation-Modelle und Retrieval-Techniken zur Erkennung spezifischer Objekte zu bewerten. Die wesentlichen Vorteile gegenüber bestehenden Datensätzen umfassen den großen Umfang, die Domänenvielfalt, präzise Ground-Truth-Daten und eine Leistung, die weit von der Sättigung entfernt ist. ILIAS enthält Abfrage- und Positivbilder für 1.000 Objektinstanzen, die manuell gesammelt wurden, um herausfordernde Bedingungen und diverse Domänen abzudecken. Die groß angelegte Suche wird gegen 100 Millionen Ablenkbilder aus YFCC100M durchgeführt. Um falsche Negative ohne zusätzlichen Annotationsaufwand zu vermeiden, schließen wir nur Abfrageobjekte ein, die bestätigt nach 2014 entstanden sind, d.h. dem Kompilationsdatum von YFCC100M. Eine umfangreiche Benchmarking-Studie wurde mit folgenden Beobachtungen durchgeführt: i) Modelle, die auf spezifische Domänen wie Sehenswürdigkeiten oder Produkte feinabgestimmt wurden, glänzen in dieser Domäne, scheitern jedoch bei ILIAS ii) Das Lernen einer linearen Anpassungsschicht unter Verwendung von Multi-Domänen-Klassensupervision führt zu Leistungsverbesserungen, insbesondere bei Vision-Language-Modellen iii) Lokale Deskriptoren bei der Neuordnung der Suchergebnisse sind nach wie vor ein Schlüsselelement, insbesondere bei starkem Hintergrundrauschen iv) Die Text-zu-Bild-Leistung der Vision-Language-Foundation-Modelle ist überraschend nah an der entsprechenden Bild-zu-Bild-Leistung. Website: https://vrg.fel.cvut.cz/ilias/
English
This work introduces ILIAS, a new test dataset for Instance-Level Image retrieval At Scale. It is designed to evaluate the ability of current and future foundation models and retrieval techniques to recognize particular objects. The key benefits over existing datasets include large scale, domain diversity, accurate ground truth, and a performance that is far from saturated. ILIAS includes query and positive images for 1,000 object instances, manually collected to capture challenging conditions and diverse domains. Large-scale retrieval is conducted against 100 million distractor images from YFCC100M. To avoid false negatives without extra annotation effort, we include only query objects confirmed to have emerged after 2014, i.e. the compilation date of YFCC100M. An extensive benchmarking is performed with the following observations: i) models fine-tuned on specific domains, such as landmarks or products, excel in that domain but fail on ILIAS ii) learning a linear adaptation layer using multi-domain class supervision results in performance improvements, especially for vision-language models iii) local descriptors in retrieval re-ranking are still a key ingredient, especially in the presence of severe background clutter iv) the text-to-image performance of the vision-language foundation models is surprisingly close to the corresponding image-to-image case. website: https://vrg.fel.cvut.cz/ilias/

Summary

AI-Generated Summary

PDF42February 18, 2025