ChatPaper.aiChatPaper

MIEB: Benchmark de Embedding de Imagens em Grande Escala

MIEB: Massive Image Embedding Benchmark

April 14, 2025
Autores: Chenghao Xiao, Isaac Chung, Imene Kerboua, Jamie Stirling, Xin Zhang, Márton Kardos, Roman Solomatin, Noura Al Moubayed, Kenneth Enevoldsen, Niklas Muennighoff
cs.AI

Resumo

As representações de imagens são frequentemente avaliadas por meio de protocolos desconexos e específicos para cada tarefa, resultando em uma compreensão fragmentada das capacidades dos modelos. Por exemplo, não está claro se um modelo de incorporação de imagens que é habilidoso em agrupar imagens é igualmente bom em recuperar imagens relevantes dado um texto. Introduzimos o Massive Image Embedding Benchmark (MIEB) para avaliar o desempenho de modelos de incorporação de imagens e de texto-imagem na mais ampla gama de tarefas até o momento. O MIEB abrange 38 idiomas em 130 tarefas individuais, que agrupamos em 8 categorias de alto nível. Avaliamos 50 modelos em nosso benchmark, constatando que nenhum método único domina todas as categorias de tarefas. Revelamos capacidades ocultas em modelos avançados de visão, como sua representação visual precisa de textos, e suas capacidades ainda limitadas em codificações intercaladas e na correspondência de imagens e textos na presença de fatores de confusão. Também mostramos que o desempenho de codificadores de visão no MIEB está altamente correlacionado com seu desempenho quando usados em modelos de linguagem multimodal de grande escala. Nosso código, conjunto de dados e leaderboard estão publicamente disponíveis em https://github.com/embeddings-benchmark/mteb.
English
Image representations are often evaluated through disjointed, task-specific protocols, leading to a fragmented understanding of model capabilities. For instance, it is unclear whether an image embedding model adept at clustering images is equally good at retrieving relevant images given a piece of text. We introduce the Massive Image Embedding Benchmark (MIEB) to evaluate the performance of image and image-text embedding models across the broadest spectrum to date. MIEB spans 38 languages across 130 individual tasks, which we group into 8 high-level categories. We benchmark 50 models across our benchmark, finding that no single method dominates across all task categories. We reveal hidden capabilities in advanced vision models such as their accurate visual representation of texts, and their yet limited capabilities in interleaved encodings and matching images and texts in the presence of confounders. We also show that the performance of vision encoders on MIEB correlates highly with their performance when used in multimodal large language models. Our code, dataset, and leaderboard are publicly available at https://github.com/embeddings-benchmark/mteb.

Summary

AI-Generated Summary

PDF162April 15, 2025