GeneCIS: Een Benchmark voor Algemene Voorwaardelijke Beeldgelijkheid
GeneCIS: A Benchmark for General Conditional Image Similarity
June 13, 2023
Auteurs: Sagar Vaze, Nicolas Carion, Ishan Misra
cs.AI
Samenvatting
Wij stellen dat er veel verschillende noties van 'gelijkenis' bestaan en dat modellen, net als mensen, zich dynamisch aan deze noties moeten kunnen aanpassen. Dit staat in contrast met de meeste methoden voor representatieleren, zowel onder supervisie als zelfsupervisie, die een vaste inbeddingsfunctie leren en daarmee impliciet uitgaan van een enkele notie van gelijkenis. Modellen die bijvoorbeeld op ImageNet zijn getraind, zijn bijvoorbeeld bevooroordeeld naar objectcategorieën, terwijl een gebruiker mogelijk liever heeft dat het model zich richt op kleuren, texturen of specifieke elementen in de scène. In dit artikel introduceren we de GeneCIS ('genesis') benchmark, die het vermogen van modellen meet om zich aan te passen aan een reeks gelijkeniscondities. In uitbreiding van eerder werk is onze benchmark uitsluitend ontworpen voor zero-shot evaluatie en beschouwt daarom een open set van gelijkeniscondities. We constateren dat baseline-modellen van krachtige CLIP-modellen moeite hebben met GeneCIS en dat de prestaties op de benchmark slechts zwak gecorreleerd zijn met de nauwkeurigheid op ImageNet, wat suggereert dat het simpelweg opschalen van bestaande methoden niet vruchtbaar is. We stellen verder een eenvoudige, schaalbare oplossing voor, gebaseerd op het automatisch extraheren van informatie uit bestaande afbeelding-bijschrift datasets. We ontdekken dat onze methode een aanzienlijke verbetering biedt ten opzichte van de baseline-modellen op GeneCIS en bovendien de zero-shot prestaties verbetert op gerelateerde benchmarks voor beeldretrieval. Hoewel het zero-shot wordt geëvalueerd, overtreft ons model zelfs state-of-the-art supervised modellen op MIT-States. Projectpagina op https://sgvaze.github.io/genecis/.
English
We argue that there are many notions of 'similarity' and that models, like
humans, should be able to adapt to these dynamically. This contrasts with most
representation learning methods, supervised or self-supervised, which learn a
fixed embedding function and hence implicitly assume a single notion of
similarity. For instance, models trained on ImageNet are biased towards object
categories, while a user might prefer the model to focus on colors, textures or
specific elements in the scene. In this paper, we propose the GeneCIS
('genesis') benchmark, which measures models' ability to adapt to a range of
similarity conditions. Extending prior work, our benchmark is designed for
zero-shot evaluation only, and hence considers an open-set of similarity
conditions. We find that baselines from powerful CLIP models struggle on
GeneCIS and that performance on the benchmark is only weakly correlated with
ImageNet accuracy, suggesting that simply scaling existing methods is not
fruitful. We further propose a simple, scalable solution based on automatically
mining information from existing image-caption datasets. We find our method
offers a substantial boost over the baselines on GeneCIS, and further improves
zero-shot performance on related image retrieval benchmarks. In fact, though
evaluated zero-shot, our model surpasses state-of-the-art supervised models on
MIT-States. Project page at https://sgvaze.github.io/genecis/.