GeneCIS: Un Punto de Referencia para la Similitud Condicional General de Imágenes

Resumen

Argumentamos que existen múltiples nociones de 'similitud' y que los modelos, al igual que los humanos, deberían poder adaptarse a estas de manera dinámica. Esto contrasta con la mayoría de los métodos de aprendizaje de representaciones, ya sean supervisados o auto-supervisados, que aprenden una función de embedding fija y, por lo tanto, asumen implícitamente una única noción de similitud. Por ejemplo, los modelos entrenados en ImageNet están sesgados hacia categorías de objetos, mientras que un usuario podría preferir que el modelo se enfoque en colores, texturas o elementos específicos de la escena. En este artículo, proponemos el benchmark GeneCIS ('génesis'), que mide la capacidad de los modelos para adaptarse a un rango de condiciones de similitud. Extendiendo trabajos previos, nuestro benchmark está diseñado únicamente para evaluación zero-shot y, por lo tanto, considera un conjunto abierto de condiciones de similitud. Encontramos que los modelos base de CLIP, aunque potentes, tienen dificultades en GeneCIS y que el rendimiento en este benchmark está solo débilmente correlacionado con la precisión en ImageNet, lo que sugiere que simplemente escalar los métodos existentes no es fructífero. Además, proponemos una solución simple y escalable basada en la extracción automática de información de conjuntos de datos existentes de imágenes y descripciones. Descubrimos que nuestro método ofrece una mejora sustancial sobre los modelos base en GeneCIS y además mejora el rendimiento zero-shot en benchmarks relacionados de recuperación de imágenes. De hecho, aunque evaluado en zero-shot, nuestro modelo supera a los modelos supervisados más avanzados en MIT-States. Página del proyecto en https://sgvaze.github.io/genecis/.

English

We argue that there are many notions of 'similarity' and that models, like humans, should be able to adapt to these dynamically. This contrasts with most representation learning methods, supervised or self-supervised, which learn a fixed embedding function and hence implicitly assume a single notion of similarity. For instance, models trained on ImageNet are biased towards object categories, while a user might prefer the model to focus on colors, textures or specific elements in the scene. In this paper, we propose the GeneCIS ('genesis') benchmark, which measures models' ability to adapt to a range of similarity conditions. Extending prior work, our benchmark is designed for zero-shot evaluation only, and hence considers an open-set of similarity conditions. We find that baselines from powerful CLIP models struggle on GeneCIS and that performance on the benchmark is only weakly correlated with ImageNet accuracy, suggesting that simply scaling existing methods is not fruitful. We further propose a simple, scalable solution based on automatically mining information from existing image-caption datasets. We find our method offers a substantial boost over the baselines on GeneCIS, and further improves zero-shot performance on related image retrieval benchmarks. In fact, though evaluated zero-shot, our model surpasses state-of-the-art supervised models on MIT-States. Project page at https://sgvaze.github.io/genecis/.

GeneCIS: Un Punto de Referencia para la Similitud Condicional General de Imágenes

GeneCIS: A Benchmark for General Conditional Image Similarity

Resumen

Support