GeneCIS: Бенчмарк для оценки общей условной схожести изображений
GeneCIS: A Benchmark for General Conditional Image Similarity
June 13, 2023
Авторы: Sagar Vaze, Nicolas Carion, Ishan Misra
cs.AI
Аннотация
Мы утверждаем, что существует множество понятий «сходства», и модели, подобно людям, должны уметь адаптироваться к ним динамически. Это контрастирует с большинством методов обучения представлений, будь то с учителем или самообучение, которые изучают фиксированную функцию вложения и, следовательно, неявно предполагают единое понятие сходства. Например, модели, обученные на ImageNet, смещены в сторону категорий объектов, в то время как пользователь может предпочесть, чтобы модель фокусировалась на цветах, текстурах или конкретных элементах сцены. В данной статье мы предлагаем бенчмарк GeneCIS («генезис»), который измеряет способность моделей адаптироваться к различным условиям сходства. Расширяя предыдущие работы, наш бенчмарк предназначен исключительно для оценки в режиме zero-shot и, следовательно, рассматривает открытый набор условий сходства. Мы обнаруживаем, что базовые модели на основе мощных CLIP-моделей испытывают трудности на GeneCIS, а производительность на этом бенчмарке лишь слабо коррелирует с точностью на ImageNet, что указывает на то, что простое масштабирование существующих методов не приносит плодов. Мы также предлагаем простое и масштабируемое решение, основанное на автоматическом извлечении информации из существующих наборов данных с изображениями и подписями. Мы обнаруживаем, что наш метод значительно превосходит базовые подходы на GeneCIS и дополнительно улучшает производительность в режиме zero-shot на связанных бенчмарках для поиска изображений. Фактически, хотя оценка проводится в режиме zero-shot, наша модель превосходит современные модели с учителем на MIT-States. Страница проекта: https://sgvaze.github.io/genecis/.
English
We argue that there are many notions of 'similarity' and that models, like
humans, should be able to adapt to these dynamically. This contrasts with most
representation learning methods, supervised or self-supervised, which learn a
fixed embedding function and hence implicitly assume a single notion of
similarity. For instance, models trained on ImageNet are biased towards object
categories, while a user might prefer the model to focus on colors, textures or
specific elements in the scene. In this paper, we propose the GeneCIS
('genesis') benchmark, which measures models' ability to adapt to a range of
similarity conditions. Extending prior work, our benchmark is designed for
zero-shot evaluation only, and hence considers an open-set of similarity
conditions. We find that baselines from powerful CLIP models struggle on
GeneCIS and that performance on the benchmark is only weakly correlated with
ImageNet accuracy, suggesting that simply scaling existing methods is not
fruitful. We further propose a simple, scalable solution based on automatically
mining information from existing image-caption datasets. We find our method
offers a substantial boost over the baselines on GeneCIS, and further improves
zero-shot performance on related image retrieval benchmarks. In fact, though
evaluated zero-shot, our model surpasses state-of-the-art supervised models on
MIT-States. Project page at https://sgvaze.github.io/genecis/.