MIEB: Massieve Benchmark voor Afbeelding-Embeddingen
MIEB: Massive Image Embedding Benchmark
April 14, 2025
Auteurs: Chenghao Xiao, Isaac Chung, Imene Kerboua, Jamie Stirling, Xin Zhang, Márton Kardos, Roman Solomatin, Noura Al Moubayed, Kenneth Enevoldsen, Niklas Muennighoff
cs.AI
Samenvatting
Beeldrepresentaties worden vaak geëvalueerd via onsamenhangende, taakspecifieke protocollen, wat leidt tot een gefragmenteerd begrip van modelcapaciteiten. Het is bijvoorbeeld onduidelijk of een beeldembeddingmodel dat goed is in het clusteren van afbeeldingen, even goed presteert bij het ophalen van relevante afbeeldingen op basis van een stuk tekst. We introduceren de Massive Image Embedding Benchmark (MIEB) om de prestaties van beeld- en beeld-tekst-embeddingmodellen te evalueren over het breedste spectrum tot nu toe. MIEB omvat 38 talen en 130 individuele taken, die we groeperen in 8 hoogwaardige categorieën. We testen 50 modellen op onze benchmark en constateren dat geen enkele methode dominant is over alle taakcategorieën. We onthullen verborgen capaciteiten in geavanceerde visionmodellen, zoals hun nauwkeurige visuele representatie van teksten, en hun nog beperkte mogelijkheden in interleaved coderingen en het matchen van afbeeldingen en teksten in aanwezigheid van verstorende factoren. We tonen ook aan dat de prestaties van vision-encoders op MIEB sterk correleren met hun prestaties wanneer ze worden gebruikt in multimodale grote taalmodellen. Onze code, dataset en leaderboard zijn openbaar beschikbaar op https://github.com/embeddings-benchmark/mteb.
English
Image representations are often evaluated through disjointed, task-specific
protocols, leading to a fragmented understanding of model capabilities. For
instance, it is unclear whether an image embedding model adept at clustering
images is equally good at retrieving relevant images given a piece of text. We
introduce the Massive Image Embedding Benchmark (MIEB) to evaluate the
performance of image and image-text embedding models across the broadest
spectrum to date. MIEB spans 38 languages across 130 individual tasks, which we
group into 8 high-level categories. We benchmark 50 models across our
benchmark, finding that no single method dominates across all task categories.
We reveal hidden capabilities in advanced vision models such as their accurate
visual representation of texts, and their yet limited capabilities in
interleaved encodings and matching images and texts in the presence of
confounders. We also show that the performance of vision encoders on MIEB
correlates highly with their performance when used in multimodal large language
models. Our code, dataset, and leaderboard are publicly available at
https://github.com/embeddings-benchmark/mteb.Summary
AI-Generated Summary