ChatPaper.aiChatPaper

MRMR: Un Benchmark Multidisciplinare Realistico e di Livello Esperto per il Recupero Multimodale ad Alta Intensità di Ragionamento

MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval

October 10, 2025
Autori: Siyue Zhang, Yuan Gao, Xiao Zhou, Yilun Zhao, Tingyu Song, Arman Cohan, Anh Tuan Luu, Chen Zhao
cs.AI

Abstract

Presentiamo MRMR, il primo benchmark multidisciplinare multimodale di recupero a livello esperto che richiede un ragionamento intensivo. MRMR contiene 1.502 query che coprono 23 domini, con documenti positivi attentamente verificati da esperti umani. Rispetto ai benchmark precedenti, MRMR introduce tre progressi chiave. Innanzitutto, mette alla prova i sistemi di recupero in diverse aree di competenza, consentendo un confronto granulare dei modelli tra i domini. In secondo luogo, le query sono intensive dal punto di vista del ragionamento, con immagini che richiedono un'interpretazione più profonda, come la diagnosi di vetrini microscopici. Introduciamo inoltre il Recupero per Contraddizione, un nuovo compito che richiede ai modelli di identificare concetti in conflitto. Infine, le query e i documenti sono costruiti come sequenze intervallate di immagini e testo. A differenza dei benchmark precedenti limitati a singole immagini o documenti unimodali, MRMR offre un contesto realistico con query multi-immagine e documenti del corpus a modalità mista. Abbiamo condotto una valutazione estensiva di 4 categorie di sistemi di recupero multimodale e 14 modelli all'avanguardia su MRMR. Il modello di embedding testuale Qwen3-Embedding con didascalie generate da LLM per le immagini raggiunge le prestazioni più elevate, evidenziando un ampio margine di miglioramento per i modelli di recupero multimodale. Sebbene i più recenti modelli multimodali come Ops-MM-Embedding si comportino in modo competitivo sulle query di dominio esperto, non riescono a soddisfare i compiti intensivi dal punto di vista del ragionamento. Crediamo che MRMR apra la strada al progresso del recupero multimodale in scenari più realistici e impegnativi.
English
We introduce MRMR, the first expert-level multidisciplinary multimodal retrieval benchmark requiring intensive reasoning. MRMR contains 1,502 queries spanning 23 domains, with positive documents carefully verified by human experts. Compared to prior benchmarks, MRMR introduces three key advancements. First, it challenges retrieval systems across diverse areas of expertise, enabling fine-grained model comparison across domains. Second, queries are reasoning-intensive, with images requiring deeper interpretation such as diagnosing microscopic slides. We further introduce Contradiction Retrieval, a novel task requiring models to identify conflicting concepts. Finally, queries and documents are constructed as image-text interleaved sequences. Unlike earlier benchmarks restricted to single images or unimodal documents, MRMR offers a realistic setting with multi-image queries and mixed-modality corpus documents. We conduct an extensive evaluation of 4 categories of multimodal retrieval systems and 14 frontier models on MRMR. The text embedding model Qwen3-Embedding with LLM-generated image captions achieves the highest performance, highlighting substantial room for improving multimodal retrieval models. Although latest multimodal models such as Ops-MM-Embedding perform competitively on expert-domain queries, they fall short on reasoning-intensive tasks. We believe that MRMR paves the way for advancing multimodal retrieval in more realistic and challenging scenarios.
PDF72October 13, 2025