GeneCIS : Un benchmark pour la similarité conditionnelle générale d'images
GeneCIS: A Benchmark for General Conditional Image Similarity
June 13, 2023
Auteurs: Sagar Vaze, Nicolas Carion, Ishan Misra
cs.AI
Résumé
Nous soutenons qu'il existe de nombreuses notions de 'similarité' et que les modèles, à l'instar des humains, devraient être capables de s'adapter à celles-ci de manière dynamique. Cela contraste avec la plupart des méthodes d'apprentissage de représentations, supervisées ou auto-supervisées, qui apprennent une fonction d'embedding fixe et supposent donc implicitement une seule notion de similarité. Par exemple, les modèles entraînés sur ImageNet sont biaisés en faveur des catégories d'objets, alors qu'un utilisateur pourrait préférer que le modèle se concentre sur les couleurs, les textures ou des éléments spécifiques de la scène. Dans cet article, nous proposons le benchmark GeneCIS ('genèse'), qui mesure la capacité des modèles à s'adapter à une gamme de conditions de similarité. En prolongeant les travaux antérieurs, notre benchmark est conçu uniquement pour une évaluation en zero-shot, et considère donc un ensemble ouvert de conditions de similarité. Nous constatons que les modèles de base issus des puissants modèles CLIP peinent sur GeneCIS et que la performance sur ce benchmark n'est que faiblement corrélée avec la précision sur ImageNet, suggérant que simplement augmenter l'échelle des méthodes existantes n'est pas fructueux. Nous proposons en outre une solution simple et scalable basée sur l'extraction automatique d'informations à partir de jeux de données existants d'images et de légendes. Nous constatons que notre méthode offre une amélioration substantielle par rapport aux modèles de base sur GeneCIS, et améliore également les performances en zero-shot sur des benchmarks de recherche d'images connexes. En fait, bien qu'évalué en zero-shot, notre modèle surpasse les modèles supervisés de pointe sur MIT-States. Page du projet à l'adresse https://sgvaze.github.io/genecis/.
English
We argue that there are many notions of 'similarity' and that models, like
humans, should be able to adapt to these dynamically. This contrasts with most
representation learning methods, supervised or self-supervised, which learn a
fixed embedding function and hence implicitly assume a single notion of
similarity. For instance, models trained on ImageNet are biased towards object
categories, while a user might prefer the model to focus on colors, textures or
specific elements in the scene. In this paper, we propose the GeneCIS
('genesis') benchmark, which measures models' ability to adapt to a range of
similarity conditions. Extending prior work, our benchmark is designed for
zero-shot evaluation only, and hence considers an open-set of similarity
conditions. We find that baselines from powerful CLIP models struggle on
GeneCIS and that performance on the benchmark is only weakly correlated with
ImageNet accuracy, suggesting that simply scaling existing methods is not
fruitful. We further propose a simple, scalable solution based on automatically
mining information from existing image-caption datasets. We find our method
offers a substantial boost over the baselines on GeneCIS, and further improves
zero-shot performance on related image retrieval benchmarks. In fact, though
evaluated zero-shot, our model surpasses state-of-the-art supervised models on
MIT-States. Project page at https://sgvaze.github.io/genecis/.