MIEB: Benchmark für massive Bild-Einbettungen

papers.abstract

Bildrepräsentationen werden oft durch isolierte, aufgabenspezifische Protokolle bewertet, was zu einem fragmentierten Verständnis der Modellfähigkeiten führt. Beispielsweise ist unklar, ob ein Bild-Einbettungsmodell, das gut darin ist, Bilder zu clustern, ebenso gut darin ist, relevante Bilder basierend auf einem Textstück abzurufen. Wir stellen den Massive Image Embedding Benchmark (MIEB) vor, um die Leistung von Bild- und Bild-Text-Einbettungsmodellen über das bisher breiteste Spektrum hinweg zu bewerten. MIEB umfasst 38 Sprachen und 130 einzelne Aufgaben, die wir in 8 übergeordnete Kategorien gruppieren. Wir bewerten 50 Modelle in unserem Benchmark und stellen fest, dass keine einzelne Methode in allen Aufgabenkategorien dominiert. Wir decken verborgene Fähigkeiten in fortschrittlichen Vision-Modellen auf, wie ihre präzise visuelle Darstellung von Texten, sowie ihre noch begrenzten Fähigkeiten bei verschachtelten Kodierungen und der Zuordnung von Bildern und Texten in Gegenwart von Störfaktoren. Wir zeigen auch, dass die Leistung von Vision-Encodern auf MIEB stark mit ihrer Leistung korreliert, wenn sie in multimodalen großen Sprachmodellen verwendet werden. Unser Code, Datensatz und Leaderboard sind öffentlich verfügbar unter https://github.com/embeddings-benchmark/mteb.

English

Image representations are often evaluated through disjointed, task-specific protocols, leading to a fragmented understanding of model capabilities. For instance, it is unclear whether an image embedding model adept at clustering images is equally good at retrieving relevant images given a piece of text. We introduce the Massive Image Embedding Benchmark (MIEB) to evaluate the performance of image and image-text embedding models across the broadest spectrum to date. MIEB spans 38 languages across 130 individual tasks, which we group into 8 high-level categories. We benchmark 50 models across our benchmark, finding that no single method dominates across all task categories. We reveal hidden capabilities in advanced vision models such as their accurate visual representation of texts, and their yet limited capabilities in interleaved encodings and matching images and texts in the presence of confounders. We also show that the performance of vision encoders on MIEB correlates highly with their performance when used in multimodal large language models. Our code, dataset, and leaderboard are publicly available at https://github.com/embeddings-benchmark/mteb.

MIEB: Benchmark für massive Bild-Einbettungen

MIEB: Massive Image Embedding Benchmark

papers.abstract

Support