ILIAS: Beeldherkenning op Instantieniveau op Grote Schaal
ILIAS: Instance-Level Image retrieval At Scale
February 17, 2025
Auteurs: Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias
cs.AI
Samenvatting
Dit werk introduceert ILIAS, een nieuwe testdataset voor Instance-Level Image Retrieval At Scale. Het is ontworpen om het vermogen van huidige en toekomstige foundationmodellen en retrievetechnieken om specifieke objecten te herkennen te evalueren. De belangrijkste voordelen ten opzichte van bestaande datasets zijn de grote schaal, domeindiversiteit, nauwkeurige grondwaarheid en een prestatie die ver verwijderd is van verzadiging. ILIAS bevat query- en positieve afbeeldingen voor 1.000 objectinstanties, handmatig verzameld om uitdagende omstandigheden en diverse domeinen vast te leggen. Grootschalige retrieval wordt uitgevoerd tegen 100 miljoen afleidende afbeeldingen uit YFCC100M. Om valse negatieven te voorkomen zonder extra annotatie-inspanning, nemen we alleen queryobjecten op waarvan is bevestigd dat ze na 2014 zijn ontstaan, d.w.z. de compilatiedatum van YFCC100M. Er wordt uitgebreide benchmarking uitgevoerd met de volgende observaties: i) modellen die zijn afgestemd op specifieke domeinen, zoals bezienswaardigheden of producten, presteren uitstekend in dat domein maar falen op ILIAS ii) het leren van een lineaire aanpassingslaag met behulp van multi-domein klasse-supervisie resulteert in prestatieverbeteringen, vooral voor vision-language modellen iii) lokale descriptors in retrieval herrangschikking blijven een sleutelelement, vooral in aanwezigheid van ernstige achtergrondverwarring iv) de tekst-naar-afbeelding prestatie van de vision-language foundationmodellen verrassend dicht bij het corresponderende afbeelding-naar-afbeelding geval ligt. website: https://vrg.fel.cvut.cz/ilias/
English
This work introduces ILIAS, a new test dataset for Instance-Level Image
retrieval At Scale. It is designed to evaluate the ability of current and
future foundation models and retrieval techniques to recognize particular
objects. The key benefits over existing datasets include large scale, domain
diversity, accurate ground truth, and a performance that is far from saturated.
ILIAS includes query and positive images for 1,000 object instances, manually
collected to capture challenging conditions and diverse domains. Large-scale
retrieval is conducted against 100 million distractor images from YFCC100M. To
avoid false negatives without extra annotation effort, we include only query
objects confirmed to have emerged after 2014, i.e. the compilation date of
YFCC100M. An extensive benchmarking is performed with the following
observations: i) models fine-tuned on specific domains, such as landmarks or
products, excel in that domain but fail on ILIAS ii) learning a linear
adaptation layer using multi-domain class supervision results in performance
improvements, especially for vision-language models iii) local descriptors in
retrieval re-ranking are still a key ingredient, especially in the presence of
severe background clutter iv) the text-to-image performance of the
vision-language foundation models is surprisingly close to the corresponding
image-to-image case. website: https://vrg.fel.cvut.cz/ilias/Summary
AI-Generated Summary