MIEB: 대규모 이미지 임베딩 벤치마크
MIEB: Massive Image Embedding Benchmark
April 14, 2025
저자: Chenghao Xiao, Isaac Chung, Imene Kerboua, Jamie Stirling, Xin Zhang, Márton Kardos, Roman Solomatin, Noura Al Moubayed, Kenneth Enevoldsen, Niklas Muennighoff
cs.AI
초록
이미지 표현은 종종 단편적이고 작업별로 분리된 프로토콜을 통해 평가되어, 모델의 능력에 대한 파편화된 이해를 초래합니다. 예를 들어, 이미지 클러스터링에 능숙한 이미지 임베딩 모델이 텍스트 조각이 주어졌을 때 관련 이미지를 검색하는 데에도 동등하게 뛰어난지 여부는 명확하지 않습니다. 우리는 가장 광범위한 스펙트럼에서 이미지 및 이미지-텍스트 임베딩 모델의 성능을 평가하기 위해 Massive Image Embedding Benchmark(MIEB)를 소개합니다. MIEB는 38개 언어에 걸쳐 130개의 개별 작업을 포함하며, 이를 8개의 상위 범주로 그룹화합니다. 우리는 벤치마크를 통해 50개의 모델을 평가한 결과, 모든 작업 범주에서 단일 방법이 우위를 점하지 않음을 발견했습니다. 우리는 고급 비전 모델에서 텍스트의 정확한 시각적 표현과 같은 숨겨진 능력을 밝혀냈으며, 혼동 요소가 있는 상황에서 이미지와 텍스트를 교차 인코딩하고 매칭하는 능력은 아직 제한적임을 보여줍니다. 또한, MIEB에서의 비전 인코더 성능이 멀티모달 대형 언어 모델에서 사용될 때의 성능과 높은 상관관계를 보인다는 것을 입증합니다. 우리의 코드, 데이터셋, 리더보드는 https://github.com/embeddings-benchmark/mteb에서 공개적으로 제공됩니다.
English
Image representations are often evaluated through disjointed, task-specific
protocols, leading to a fragmented understanding of model capabilities. For
instance, it is unclear whether an image embedding model adept at clustering
images is equally good at retrieving relevant images given a piece of text. We
introduce the Massive Image Embedding Benchmark (MIEB) to evaluate the
performance of image and image-text embedding models across the broadest
spectrum to date. MIEB spans 38 languages across 130 individual tasks, which we
group into 8 high-level categories. We benchmark 50 models across our
benchmark, finding that no single method dominates across all task categories.
We reveal hidden capabilities in advanced vision models such as their accurate
visual representation of texts, and their yet limited capabilities in
interleaved encodings and matching images and texts in the presence of
confounders. We also show that the performance of vision encoders on MIEB
correlates highly with their performance when used in multimodal large language
models. Our code, dataset, and leaderboard are publicly available at
https://github.com/embeddings-benchmark/mteb.Summary
AI-Generated Summary