MIEB : Benchmark d'Embedding d'Images à Grande Échelle
MIEB: Massive Image Embedding Benchmark
April 14, 2025
Auteurs: Chenghao Xiao, Isaac Chung, Imene Kerboua, Jamie Stirling, Xin Zhang, Márton Kardos, Roman Solomatin, Noura Al Moubayed, Kenneth Enevoldsen, Niklas Muennighoff
cs.AI
Résumé
Les représentations d'images sont souvent évaluées à travers des protocoles disjoints et spécifiques à des tâches, conduisant à une compréhension fragmentée des capacités des modèles. Par exemple, il n'est pas clair si un modèle d'embedding d'images performant en clustering d'images est également efficace pour retrouver des images pertinentes à partir d'un texte donné. Nous introduisons le Massive Image Embedding Benchmark (MIEB) pour évaluer les performances des modèles d'embedding d'images et d'images-texte sur le spectre le plus large à ce jour. MIEB couvre 38 langues à travers 130 tâches individuelles, que nous regroupons en 8 catégories principales. Nous évaluons 50 modèles sur notre benchmark, constatant qu'aucune méthode ne domine toutes les catégories de tâches. Nous révélons des capacités cachées dans les modèles de vision avancés, comme leur représentation visuelle précise des textes, ainsi que leurs limites dans les encodages entrelacés et l'appariement d'images et de textes en présence de facteurs confondants. Nous montrons également que la performance des encodeurs de vision sur MIEB est fortement corrélée à leur performance lorsqu'ils sont utilisés dans des modèles de langage multimodaux de grande taille. Notre code, dataset et classement sont disponibles publiquement à l'adresse https://github.com/embeddings-benchmark/mteb.
English
Image representations are often evaluated through disjointed, task-specific
protocols, leading to a fragmented understanding of model capabilities. For
instance, it is unclear whether an image embedding model adept at clustering
images is equally good at retrieving relevant images given a piece of text. We
introduce the Massive Image Embedding Benchmark (MIEB) to evaluate the
performance of image and image-text embedding models across the broadest
spectrum to date. MIEB spans 38 languages across 130 individual tasks, which we
group into 8 high-level categories. We benchmark 50 models across our
benchmark, finding that no single method dominates across all task categories.
We reveal hidden capabilities in advanced vision models such as their accurate
visual representation of texts, and their yet limited capabilities in
interleaved encodings and matching images and texts in the presence of
confounders. We also show that the performance of vision encoders on MIEB
correlates highly with their performance when used in multimodal large language
models. Our code, dataset, and leaderboard are publicly available at
https://github.com/embeddings-benchmark/mteb.Summary
AI-Generated Summary