ChatPaper.aiChatPaper

MIEB: 大規模画像埋め込みベンチマーク

MIEB: Massive Image Embedding Benchmark

April 14, 2025
著者: Chenghao Xiao, Isaac Chung, Imene Kerboua, Jamie Stirling, Xin Zhang, Márton Kardos, Roman Solomatin, Noura Al Moubayed, Kenneth Enevoldsen, Niklas Muennighoff
cs.AI

要旨

画像表現はしばしば断片的でタスク固有のプロトコルによって評価されるため、モデルの能力について断片的な理解しか得られない。例えば、画像のクラスタリングに長けた画像埋め込みモデルが、テキストを与えられた際に関連する画像を同等にうまく検索できるかどうかは不明である。我々は、これまでで最も広範な範囲にわたって画像および画像-テキスト埋め込みモデルの性能を評価するためのMassive Image Embedding Benchmark(MIEB)を導入する。MIEBは38言語にわたる130の個別タスクをカバーし、それらを8つの高レベルカテゴリに分類している。我々は50のモデルをこのベンチマークで評価し、すべてのタスクカテゴリで優位な単一の手法は存在しないことを明らかにした。また、高度な視覚モデルがテキストの正確な視覚表現を行うといった隠れた能力や、交絡因子が存在する状況でのインターリーブされたエンコーディングや画像とテキストのマッチングにおける限定的な能力を明らかにした。さらに、MIEBにおける視覚エンコーダの性能は、マルチモーダル大規模言語モデルで使用された際の性能と高い相関があることも示した。我々のコード、データセット、およびリーダーボードはhttps://github.com/embeddings-benchmark/mtebで公開されている。
English
Image representations are often evaluated through disjointed, task-specific protocols, leading to a fragmented understanding of model capabilities. For instance, it is unclear whether an image embedding model adept at clustering images is equally good at retrieving relevant images given a piece of text. We introduce the Massive Image Embedding Benchmark (MIEB) to evaluate the performance of image and image-text embedding models across the broadest spectrum to date. MIEB spans 38 languages across 130 individual tasks, which we group into 8 high-level categories. We benchmark 50 models across our benchmark, finding that no single method dominates across all task categories. We reveal hidden capabilities in advanced vision models such as their accurate visual representation of texts, and their yet limited capabilities in interleaved encodings and matching images and texts in the presence of confounders. We also show that the performance of vision encoders on MIEB correlates highly with their performance when used in multimodal large language models. Our code, dataset, and leaderboard are publicly available at https://github.com/embeddings-benchmark/mteb.

Summary

AI-Generated Summary

PDF162April 15, 2025