ChatPaper.aiChatPaper

ILIAS: Beeldherkenning op Instantieniveau op Grote Schaal

ILIAS: Instance-Level Image retrieval At Scale

February 17, 2025
Auteurs: Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias
cs.AI

Samenvatting

Dit werk introduceert ILIAS, een nieuwe testdataset voor Instance-Level Image Retrieval At Scale. Het is ontworpen om het vermogen van huidige en toekomstige foundationmodellen en retrievetechnieken om specifieke objecten te herkennen te evalueren. De belangrijkste voordelen ten opzichte van bestaande datasets zijn de grote schaal, domeindiversiteit, nauwkeurige grondwaarheid en een prestatie die ver verwijderd is van verzadiging. ILIAS bevat query- en positieve afbeeldingen voor 1.000 objectinstanties, handmatig verzameld om uitdagende omstandigheden en diverse domeinen vast te leggen. Grootschalige retrieval wordt uitgevoerd tegen 100 miljoen afleidende afbeeldingen uit YFCC100M. Om valse negatieven te voorkomen zonder extra annotatie-inspanning, nemen we alleen queryobjecten op waarvan is bevestigd dat ze na 2014 zijn ontstaan, d.w.z. de compilatiedatum van YFCC100M. Er wordt uitgebreide benchmarking uitgevoerd met de volgende observaties: i) modellen die zijn afgestemd op specifieke domeinen, zoals bezienswaardigheden of producten, presteren uitstekend in dat domein maar falen op ILIAS ii) het leren van een lineaire aanpassingslaag met behulp van multi-domein klasse-supervisie resulteert in prestatieverbeteringen, vooral voor vision-language modellen iii) lokale descriptors in retrieval herrangschikking blijven een sleutelelement, vooral in aanwezigheid van ernstige achtergrondverwarring iv) de tekst-naar-afbeelding prestatie van de vision-language foundationmodellen verrassend dicht bij het corresponderende afbeelding-naar-afbeelding geval ligt. website: https://vrg.fel.cvut.cz/ilias/
English
This work introduces ILIAS, a new test dataset for Instance-Level Image retrieval At Scale. It is designed to evaluate the ability of current and future foundation models and retrieval techniques to recognize particular objects. The key benefits over existing datasets include large scale, domain diversity, accurate ground truth, and a performance that is far from saturated. ILIAS includes query and positive images for 1,000 object instances, manually collected to capture challenging conditions and diverse domains. Large-scale retrieval is conducted against 100 million distractor images from YFCC100M. To avoid false negatives without extra annotation effort, we include only query objects confirmed to have emerged after 2014, i.e. the compilation date of YFCC100M. An extensive benchmarking is performed with the following observations: i) models fine-tuned on specific domains, such as landmarks or products, excel in that domain but fail on ILIAS ii) learning a linear adaptation layer using multi-domain class supervision results in performance improvements, especially for vision-language models iii) local descriptors in retrieval re-ranking are still a key ingredient, especially in the presence of severe background clutter iv) the text-to-image performance of the vision-language foundation models is surprisingly close to the corresponding image-to-image case. website: https://vrg.fel.cvut.cz/ilias/

Summary

AI-Generated Summary

PDF42February 18, 2025