MIEB: Benchmark für massive Bild-Einbettungen
MIEB: Massive Image Embedding Benchmark
April 14, 2025
Autoren: Chenghao Xiao, Isaac Chung, Imene Kerboua, Jamie Stirling, Xin Zhang, Márton Kardos, Roman Solomatin, Noura Al Moubayed, Kenneth Enevoldsen, Niklas Muennighoff
cs.AI
Zusammenfassung
Bildrepräsentationen werden oft durch isolierte, aufgabenspezifische Protokolle bewertet, was zu einem fragmentierten Verständnis der Modellfähigkeiten führt. Beispielsweise ist unklar, ob ein Bild-Einbettungsmodell, das gut darin ist, Bilder zu clustern, ebenso gut darin ist, relevante Bilder basierend auf einem Textstück abzurufen. Wir stellen den Massive Image Embedding Benchmark (MIEB) vor, um die Leistung von Bild- und Bild-Text-Einbettungsmodellen über das bisher breiteste Spektrum hinweg zu bewerten. MIEB umfasst 38 Sprachen und 130 einzelne Aufgaben, die wir in 8 übergeordnete Kategorien gruppieren. Wir bewerten 50 Modelle in unserem Benchmark und stellen fest, dass keine einzelne Methode in allen Aufgabenkategorien dominiert. Wir decken verborgene Fähigkeiten in fortschrittlichen Vision-Modellen auf, wie ihre präzise visuelle Darstellung von Texten, sowie ihre noch begrenzten Fähigkeiten bei verschachtelten Kodierungen und der Zuordnung von Bildern und Texten in Gegenwart von Störfaktoren. Wir zeigen auch, dass die Leistung von Vision-Encodern auf MIEB stark mit ihrer Leistung korreliert, wenn sie in multimodalen großen Sprachmodellen verwendet werden. Unser Code, Datensatz und Leaderboard sind öffentlich verfügbar unter https://github.com/embeddings-benchmark/mteb.
English
Image representations are often evaluated through disjointed, task-specific
protocols, leading to a fragmented understanding of model capabilities. For
instance, it is unclear whether an image embedding model adept at clustering
images is equally good at retrieving relevant images given a piece of text. We
introduce the Massive Image Embedding Benchmark (MIEB) to evaluate the
performance of image and image-text embedding models across the broadest
spectrum to date. MIEB spans 38 languages across 130 individual tasks, which we
group into 8 high-level categories. We benchmark 50 models across our
benchmark, finding that no single method dominates across all task categories.
We reveal hidden capabilities in advanced vision models such as their accurate
visual representation of texts, and their yet limited capabilities in
interleaved encodings and matching images and texts in the presence of
confounders. We also show that the performance of vision encoders on MIEB
correlates highly with their performance when used in multimodal large language
models. Our code, dataset, and leaderboard are publicly available at
https://github.com/embeddings-benchmark/mteb.Summary
AI-Generated Summary