MRMR: Een realistisch en expertniveau multidisciplinair benchmark voor redeneerintensieve multimodale retrieva
MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval
October 10, 2025
Auteurs: Siyue Zhang, Yuan Gao, Xiao Zhou, Yilun Zhao, Tingyu Song, Arman Cohan, Anh Tuan Luu, Chen Zhao
cs.AI
Samenvatting
We introduceren MRMR, de eerste expert-level multidisciplinaire multimodale retrieval benchmark die intensief redeneren vereist. MRMR bevat 1.502 queries die 23 domeinen beslaan, waarbij positieve documenten zorgvuldig zijn geverifieerd door menselijke experts. In vergelijking met eerdere benchmarks introduceert MRMR drie belangrijke verbeteringen. Ten eerste daagt het retrievalsystemen uit over diverse expertisegebieden, waardoor een gedetailleerde modelvergelijking tussen domeinen mogelijk is. Ten tweede zijn de queries intensief in redenering, waarbij afbeeldingen een diepere interpretatie vereisen, zoals het diagnosticeren van microscopische preparaten. We introduceren verder Contradiction Retrieval, een nieuwe taak die modellen vereist om conflicterende concepten te identificeren. Tot slot zijn queries en documenten opgebouwd als beeld-tekst interleaved sequenties. In tegenstelling tot eerdere benchmarks die beperkt waren tot enkele afbeeldingen of unimodale documenten, biedt MRMR een realistische setting met multi-image queries en gemengde modaliteit corpusdocumenten. We voeren een uitgebreide evaluatie uit van 4 categorieën multimodale retrievalsystemen en 14 frontier modellen op MRMR. Het tekstembeddingmodel Qwen3-Embedding met door LLM gegenereerde beeldbeschrijvingen behaalt de hoogste prestaties, wat wijst op aanzienlijke ruimte voor verbetering van multimodale retrievalmodellen. Hoewel de nieuwste multimodale modellen zoals Ops-MM-Embedding competitief presteren op expert-domein queries, schieten ze tekort bij taken die intensief redeneren vereisen. Wij geloven dat MRMR de weg vrijmaakt voor de vooruitgang van multimodale retrieval in meer realistische en uitdagende scenario's.
English
We introduce MRMR, the first expert-level multidisciplinary multimodal
retrieval benchmark requiring intensive reasoning. MRMR contains 1,502 queries
spanning 23 domains, with positive documents carefully verified by human
experts. Compared to prior benchmarks, MRMR introduces three key advancements.
First, it challenges retrieval systems across diverse areas of expertise,
enabling fine-grained model comparison across domains. Second, queries are
reasoning-intensive, with images requiring deeper interpretation such as
diagnosing microscopic slides. We further introduce Contradiction Retrieval, a
novel task requiring models to identify conflicting concepts. Finally, queries
and documents are constructed as image-text interleaved sequences. Unlike
earlier benchmarks restricted to single images or unimodal documents, MRMR
offers a realistic setting with multi-image queries and mixed-modality corpus
documents. We conduct an extensive evaluation of 4 categories of multimodal
retrieval systems and 14 frontier models on MRMR. The text embedding model
Qwen3-Embedding with LLM-generated image captions achieves the highest
performance, highlighting substantial room for improving multimodal retrieval
models. Although latest multimodal models such as Ops-MM-Embedding perform
competitively on expert-domain queries, they fall short on reasoning-intensive
tasks. We believe that MRMR paves the way for advancing multimodal retrieval in
more realistic and challenging scenarios.