ChatPaper.aiChatPaper

MRMR: Um Benchmark Multidisciplinar Realista e de Nível Especialista para Recuperação Multimodal Intensiva em Raciocínio

MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval

October 10, 2025
Autores: Siyue Zhang, Yuan Gao, Xiao Zhou, Yilun Zhao, Tingyu Song, Arman Cohan, Anh Tuan Luu, Chen Zhao
cs.AI

Resumo

Apresentamos o MRMR, o primeiro benchmark multidisciplinar multimodal de recuperação em nível de especialista que exige raciocínio intensivo. O MRMR contém 1.502 consultas abrangendo 23 domínios, com documentos positivos cuidadosamente verificados por especialistas humanos. Em comparação com benchmarks anteriores, o MRMR introduz três avanços principais. Primeiro, ele desafia sistemas de recuperação em diversas áreas de expertise, permitindo uma comparação refinada de modelos entre domínios. Segundo, as consultas são intensivas em raciocínio, com imagens que exigem interpretação mais profunda, como o diagnóstico de lâminas microscópicas. Além disso, introduzimos a Recuperação por Contradição, uma nova tarefa que requer que os modelos identifiquem conceitos conflitantes. Por fim, as consultas e documentos são construídos como sequências intercaladas de imagem-texto. Diferente de benchmarks anteriores restritos a imagens únicas ou documentos unimodais, o MRMR oferece um cenário realista com consultas de múltiplas imagens e documentos de corpus de modalidade mista. Realizamos uma avaliação extensa de 4 categorias de sistemas de recuperação multimodal e 14 modelos de ponta no MRMR. O modelo de incorporação de texto Qwen3-Embedding com legendas de imagens geradas por LLM alcança o melhor desempenho, destacando um espaço substancial para a melhoria de modelos de recuperação multimodal. Embora os modelos multimodais mais recentes, como o Ops-MM-Embedding, tenham desempenho competitivo em consultas de domínio especializado, eles ficam aquém em tarefas intensivas em raciocínio. Acreditamos que o MRMR abre caminho para o avanço da recuperação multimodal em cenários mais realistas e desafiadores.
English
We introduce MRMR, the first expert-level multidisciplinary multimodal retrieval benchmark requiring intensive reasoning. MRMR contains 1,502 queries spanning 23 domains, with positive documents carefully verified by human experts. Compared to prior benchmarks, MRMR introduces three key advancements. First, it challenges retrieval systems across diverse areas of expertise, enabling fine-grained model comparison across domains. Second, queries are reasoning-intensive, with images requiring deeper interpretation such as diagnosing microscopic slides. We further introduce Contradiction Retrieval, a novel task requiring models to identify conflicting concepts. Finally, queries and documents are constructed as image-text interleaved sequences. Unlike earlier benchmarks restricted to single images or unimodal documents, MRMR offers a realistic setting with multi-image queries and mixed-modality corpus documents. We conduct an extensive evaluation of 4 categories of multimodal retrieval systems and 14 frontier models on MRMR. The text embedding model Qwen3-Embedding with LLM-generated image captions achieves the highest performance, highlighting substantial room for improving multimodal retrieval models. Although latest multimodal models such as Ops-MM-Embedding perform competitively on expert-domain queries, they fall short on reasoning-intensive tasks. We believe that MRMR paves the way for advancing multimodal retrieval in more realistic and challenging scenarios.
PDF72October 13, 2025