ChatPaper.aiChatPaper

MRMR: 推論集約型マルチモーダル検索のための現実的かつ専門家レベルの学際的ベンチマーク

MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval

October 10, 2025
著者: Siyue Zhang, Yuan Gao, Xiao Zhou, Yilun Zhao, Tingyu Song, Arman Cohan, Anh Tuan Luu, Chen Zhao
cs.AI

要旨

我々は、集中的な推論を必要とする初の専門家レベルの学際的マルチモーダル検索ベンチマークであるMRMRを紹介する。MRMRは23のドメインにわたる1,502のクエリを含み、肯定的な文書は人間の専門家によって慎重に検証されている。従来のベンチマークと比較して、MRMRは3つの重要な進歩をもたらす。第一に、多様な専門分野にわたって検索システムに挑戦し、ドメイン間での細かいモデル比較を可能にする。第二に、クエリは推論集約的であり、顕微鏡スライドの診断など、画像の深い解釈を必要とする。さらに、矛盾する概念を識別することをモデルに求める新しいタスクであるContradiction Retrievalを導入する。最後に、クエリと文書は画像とテキストが交互に配置されたシーケンスとして構築される。単一の画像や単一モダリティの文書に制限されていた従来のベンチマークとは異なり、MRMRは複数画像のクエリと混合モダリティのコーパス文書を提供し、より現実的な設定を提供する。我々はMRMRにおいて、4つのカテゴリーのマルチモーダル検索システムと14の最先端モデルを広範に評価した。LLM生成の画像キャプションを備えたテキスト埋め込みモデルQwen3-Embeddingが最高のパフォーマンスを達成し、マルチモーダル検索モデルの改善の余地が大きいことを示している。Ops-MM-Embeddingのような最新のマルチモーダルモデルは専門家ドメインのクエリでは競争力があるものの、推論集約的なタスクでは不十分である。我々は、MRMRがより現実的で挑戦的なシナリオにおけるマルチモーダル検索の進歩の道を開くと信じている。
English
We introduce MRMR, the first expert-level multidisciplinary multimodal retrieval benchmark requiring intensive reasoning. MRMR contains 1,502 queries spanning 23 domains, with positive documents carefully verified by human experts. Compared to prior benchmarks, MRMR introduces three key advancements. First, it challenges retrieval systems across diverse areas of expertise, enabling fine-grained model comparison across domains. Second, queries are reasoning-intensive, with images requiring deeper interpretation such as diagnosing microscopic slides. We further introduce Contradiction Retrieval, a novel task requiring models to identify conflicting concepts. Finally, queries and documents are constructed as image-text interleaved sequences. Unlike earlier benchmarks restricted to single images or unimodal documents, MRMR offers a realistic setting with multi-image queries and mixed-modality corpus documents. We conduct an extensive evaluation of 4 categories of multimodal retrieval systems and 14 frontier models on MRMR. The text embedding model Qwen3-Embedding with LLM-generated image captions achieves the highest performance, highlighting substantial room for improving multimodal retrieval models. Although latest multimodal models such as Ops-MM-Embedding perform competitively on expert-domain queries, they fall short on reasoning-intensive tasks. We believe that MRMR paves the way for advancing multimodal retrieval in more realistic and challenging scenarios.
PDF72October 13, 2025