ChatPaper.aiChatPaper

MIEB: Punto de Referencia para la Incrustación Masiva de Imágenes

MIEB: Massive Image Embedding Benchmark

April 14, 2025
Autores: Chenghao Xiao, Isaac Chung, Imene Kerboua, Jamie Stirling, Xin Zhang, Márton Kardos, Roman Solomatin, Noura Al Moubayed, Kenneth Enevoldsen, Niklas Muennighoff
cs.AI

Resumen

Las representaciones de imágenes suelen evaluarse mediante protocolos específicos y desconectados para cada tarea, lo que lleva a una comprensión fragmentada de las capacidades de los modelos. Por ejemplo, no está claro si un modelo de incrustación de imágenes que es hábil para agrupar imágenes es igualmente bueno para recuperar imágenes relevantes dado un fragmento de texto. Introducimos el Massive Image Embedding Benchmark (MIEB) para evaluar el rendimiento de los modelos de incrustación de imágenes y de imagen-texto en el espectro más amplio hasta la fecha. MIEB abarca 38 idiomas y 130 tareas individuales, que agrupamos en 8 categorías de alto nivel. Evaluamos 50 modelos en nuestro benchmark, encontrando que ningún método domina en todas las categorías de tareas. Revelamos capacidades ocultas en modelos de visión avanzados, como su representación visual precisa de textos, y sus capacidades aún limitadas en codificaciones intercaladas y en la coincidencia de imágenes y textos en presencia de factores de confusión. También mostramos que el rendimiento de los codificadores de visión en MIEB se correlaciona altamente con su rendimiento cuando se utilizan en modelos de lenguaje multimodal de gran escala. Nuestro código, conjunto de datos y tabla de clasificación están disponibles públicamente en https://github.com/embeddings-benchmark/mteb.
English
Image representations are often evaluated through disjointed, task-specific protocols, leading to a fragmented understanding of model capabilities. For instance, it is unclear whether an image embedding model adept at clustering images is equally good at retrieving relevant images given a piece of text. We introduce the Massive Image Embedding Benchmark (MIEB) to evaluate the performance of image and image-text embedding models across the broadest spectrum to date. MIEB spans 38 languages across 130 individual tasks, which we group into 8 high-level categories. We benchmark 50 models across our benchmark, finding that no single method dominates across all task categories. We reveal hidden capabilities in advanced vision models such as their accurate visual representation of texts, and their yet limited capabilities in interleaved encodings and matching images and texts in the presence of confounders. We also show that the performance of vision encoders on MIEB correlates highly with their performance when used in multimodal large language models. Our code, dataset, and leaderboard are publicly available at https://github.com/embeddings-benchmark/mteb.

Summary

AI-Generated Summary

PDF162April 15, 2025