GeneCIS: 일반 조건부 이미지 유사성을 위한 벤치마크
GeneCIS: A Benchmark for General Conditional Image Similarity
June 13, 2023
저자: Sagar Vaze, Nicolas Carion, Ishan Misra
cs.AI
초록
우리는 '유사성'이라는 개념이 다양하며, 모델도 인간처럼 이러한 개념에 동적으로 적응할 수 있어야 한다고 주장합니다. 이는 대부분의 표현 학습 방법, 지도 학습이나 자기 지도 학습을 포함하여, 고정된 임베딩 함수를 학습함으로써 단일한 유사성 개념을 암묵적으로 가정하는 것과 대조됩니다. 예를 들어, ImageNet으로 훈련된 모델은 객체 카테고리에 편향되어 있는 반면, 사용자는 모델이 색상, 질감 또는 장면의 특정 요소에 초점을 맞추기를 원할 수 있습니다. 본 논문에서는 다양한 유사성 조건에 모델이 적응하는 능력을 측정하는 GeneCIS('genesis') 벤치마크를 제안합니다. 기존 연구를 확장하여, 이 벤치마크는 제로샷 평가만을 위해 설계되었으며, 따라서 열린 유사성 조건 집합을 고려합니다. 우리는 강력한 CLIP 모델의 베이스라인이 GeneCIS에서 어려움을 겪으며, 벤치마크 성능이 ImageNet 정확도와 약한 상관관계를 보인다는 것을 발견했습니다. 이는 기존 방법을 단순히 확장하는 것이 효과적이지 않음을 시사합니다. 또한, 우리는 기존 이미지-캡션 데이터셋에서 정보를 자동으로 추출하는 간단하고 확장 가능한 솔루션을 제안합니다. 우리의 방법은 GeneCIS에서 베이스라인 대비 상당한 성능 향상을 제공하며, 관련 이미지 검색 벤치마크에서의 제로샷 성능도 추가로 개선합니다. 실제로, 제로샷으로 평가되었음에도 불구하고, 우리의 모델은 MIT-States에서 최첨단 지도 학습 모델을 능가합니다. 프로젝트 페이지는 https://sgvaze.github.io/genecis/에서 확인할 수 있습니다.
English
We argue that there are many notions of 'similarity' and that models, like
humans, should be able to adapt to these dynamically. This contrasts with most
representation learning methods, supervised or self-supervised, which learn a
fixed embedding function and hence implicitly assume a single notion of
similarity. For instance, models trained on ImageNet are biased towards object
categories, while a user might prefer the model to focus on colors, textures or
specific elements in the scene. In this paper, we propose the GeneCIS
('genesis') benchmark, which measures models' ability to adapt to a range of
similarity conditions. Extending prior work, our benchmark is designed for
zero-shot evaluation only, and hence considers an open-set of similarity
conditions. We find that baselines from powerful CLIP models struggle on
GeneCIS and that performance on the benchmark is only weakly correlated with
ImageNet accuracy, suggesting that simply scaling existing methods is not
fruitful. We further propose a simple, scalable solution based on automatically
mining information from existing image-caption datasets. We find our method
offers a substantial boost over the baselines on GeneCIS, and further improves
zero-shot performance on related image retrieval benchmarks. In fact, though
evaluated zero-shot, our model surpasses state-of-the-art supervised models on
MIT-States. Project page at https://sgvaze.github.io/genecis/.