ChatPaper.aiChatPaper

MIEB: Бенчмарк для массового встраивания изображений

MIEB: Massive Image Embedding Benchmark

April 14, 2025
Авторы: Chenghao Xiao, Isaac Chung, Imene Kerboua, Jamie Stirling, Xin Zhang, Márton Kardos, Roman Solomatin, Noura Al Moubayed, Kenneth Enevoldsen, Niklas Muennighoff
cs.AI

Аннотация

Представления изображений часто оцениваются с помощью разрозненных, узкоспециализированных протоколов, что приводит к фрагментарному пониманию возможностей моделей. Например, неясно, будет ли модель, эффективно кластеризующая изображения, столь же хороша в поиске релевантных изображений по текстовому запросу. Мы представляем Massive Image Embedding Benchmark (MIEB) для оценки производительности моделей, работающих с изображениями и изображениями-текстами, на самом широком на сегодняшний день спектре задач. MIEB охватывает 38 языков и 130 отдельных задач, которые мы объединили в 8 высокоуровневых категорий. Мы протестировали 50 моделей на нашем бенчмарке и обнаружили, что ни один метод не доминирует во всех категориях задач. Мы выявили скрытые возможности современных моделей компьютерного зрения, такие как их точное визуальное представление текстов, а также их пока ограниченные способности в области переплетенных кодирований и сопоставления изображений и текстов в условиях наличия смешивающих факторов. Мы также показываем, что производительность кодировщиков изображений на MIEB сильно коррелирует с их производительностью при использовании в мультимодальных больших языковых моделях. Наш код, набор данных и таблица лидеров доступны по адресу https://github.com/embeddings-benchmark/mteb.
English
Image representations are often evaluated through disjointed, task-specific protocols, leading to a fragmented understanding of model capabilities. For instance, it is unclear whether an image embedding model adept at clustering images is equally good at retrieving relevant images given a piece of text. We introduce the Massive Image Embedding Benchmark (MIEB) to evaluate the performance of image and image-text embedding models across the broadest spectrum to date. MIEB spans 38 languages across 130 individual tasks, which we group into 8 high-level categories. We benchmark 50 models across our benchmark, finding that no single method dominates across all task categories. We reveal hidden capabilities in advanced vision models such as their accurate visual representation of texts, and their yet limited capabilities in interleaved encodings and matching images and texts in the presence of confounders. We also show that the performance of vision encoders on MIEB correlates highly with their performance when used in multimodal large language models. Our code, dataset, and leaderboard are publicly available at https://github.com/embeddings-benchmark/mteb.

Summary

AI-Generated Summary

PDF162April 15, 2025