GeneCIS: Un Punto de Referencia para la Similitud Condicional General de Imágenes
GeneCIS: A Benchmark for General Conditional Image Similarity
June 13, 2023
Autores: Sagar Vaze, Nicolas Carion, Ishan Misra
cs.AI
Resumen
Argumentamos que existen múltiples nociones de 'similitud' y que los modelos, al igual que los humanos, deberían poder adaptarse a estas de manera dinámica. Esto contrasta con la mayoría de los métodos de aprendizaje de representaciones, ya sean supervisados o auto-supervisados, que aprenden una función de embedding fija y, por lo tanto, asumen implícitamente una única noción de similitud. Por ejemplo, los modelos entrenados en ImageNet están sesgados hacia categorías de objetos, mientras que un usuario podría preferir que el modelo se enfoque en colores, texturas o elementos específicos de la escena. En este artículo, proponemos el benchmark GeneCIS ('génesis'), que mide la capacidad de los modelos para adaptarse a un rango de condiciones de similitud. Extendiendo trabajos previos, nuestro benchmark está diseñado únicamente para evaluación zero-shot y, por lo tanto, considera un conjunto abierto de condiciones de similitud. Encontramos que los modelos base de CLIP, aunque potentes, tienen dificultades en GeneCIS y que el rendimiento en este benchmark está solo débilmente correlacionado con la precisión en ImageNet, lo que sugiere que simplemente escalar los métodos existentes no es fructífero. Además, proponemos una solución simple y escalable basada en la extracción automática de información de conjuntos de datos existentes de imágenes y descripciones. Descubrimos que nuestro método ofrece una mejora sustancial sobre los modelos base en GeneCIS y además mejora el rendimiento zero-shot en benchmarks relacionados de recuperación de imágenes. De hecho, aunque evaluado en zero-shot, nuestro modelo supera a los modelos supervisados más avanzados en MIT-States. Página del proyecto en https://sgvaze.github.io/genecis/.
English
We argue that there are many notions of 'similarity' and that models, like
humans, should be able to adapt to these dynamically. This contrasts with most
representation learning methods, supervised or self-supervised, which learn a
fixed embedding function and hence implicitly assume a single notion of
similarity. For instance, models trained on ImageNet are biased towards object
categories, while a user might prefer the model to focus on colors, textures or
specific elements in the scene. In this paper, we propose the GeneCIS
('genesis') benchmark, which measures models' ability to adapt to a range of
similarity conditions. Extending prior work, our benchmark is designed for
zero-shot evaluation only, and hence considers an open-set of similarity
conditions. We find that baselines from powerful CLIP models struggle on
GeneCIS and that performance on the benchmark is only weakly correlated with
ImageNet accuracy, suggesting that simply scaling existing methods is not
fruitful. We further propose a simple, scalable solution based on automatically
mining information from existing image-caption datasets. We find our method
offers a substantial boost over the baselines on GeneCIS, and further improves
zero-shot performance on related image retrieval benchmarks. In fact, though
evaluated zero-shot, our model surpasses state-of-the-art supervised models on
MIT-States. Project page at https://sgvaze.github.io/genecis/.