MRMR : Un benchmark multidisciplinaire réaliste et de niveau expert pour la recherche multimodale intensive en raisonnement
MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval
October 10, 2025
papers.authors: Siyue Zhang, Yuan Gao, Xiao Zhou, Yilun Zhao, Tingyu Song, Arman Cohan, Anh Tuan Luu, Chen Zhao
cs.AI
papers.abstract
Nous présentons MRMR, le premier benchmark expert multidisciplinaire multimodal de recherche nécessitant un raisonnement approfondi. MRMR contient 1 502 requêtes couvrant 23 domaines, avec des documents positifs soigneusement vérifiés par des experts humains. Par rapport aux benchmarks précédents, MRMR introduit trois avancées majeures. Premièrement, il met à l'épreuve les systèmes de recherche dans divers domaines d'expertise, permettant une comparaison fine des modèles à travers les domaines. Deuxièmement, les requêtes nécessitent un raisonnement intensif, avec des images exigeant une interprétation approfondie, comme le diagnostic de lames microscopiques. Nous introduisons également la Recherche de Contradiction, une nouvelle tâche qui demande aux modèles d'identifier des concepts conflictuels. Enfin, les requêtes et les documents sont construits sous forme de séquences entrelacées image-texte. Contrairement aux benchmarks antérieurs limités à des images uniques ou des documents unimodaux, MRMR offre un cadre réaliste avec des requêtes multi-images et des documents de corpus à modalités mixtes. Nous menons une évaluation approfondie de 4 catégories de systèmes de recherche multimodaux et de 14 modèles de pointe sur MRMR. Le modèle d'incorporation de texte Qwen3-Embedding avec des légendes d'images générées par LLM obtient les meilleures performances, mettant en évidence un potentiel d'amélioration substantiel pour les modèles de recherche multimodaux. Bien que les derniers modèles multimodaux tels que Ops-MM-Embedding se montrent compétitifs sur les requêtes de domaines experts, ils sont moins performants sur les tâches nécessitant un raisonnement approfondi. Nous croyons que MRMR ouvre la voie à l'avancement de la recherche multimodale dans des scénarios plus réalistes et plus exigeants.
English
We introduce MRMR, the first expert-level multidisciplinary multimodal
retrieval benchmark requiring intensive reasoning. MRMR contains 1,502 queries
spanning 23 domains, with positive documents carefully verified by human
experts. Compared to prior benchmarks, MRMR introduces three key advancements.
First, it challenges retrieval systems across diverse areas of expertise,
enabling fine-grained model comparison across domains. Second, queries are
reasoning-intensive, with images requiring deeper interpretation such as
diagnosing microscopic slides. We further introduce Contradiction Retrieval, a
novel task requiring models to identify conflicting concepts. Finally, queries
and documents are constructed as image-text interleaved sequences. Unlike
earlier benchmarks restricted to single images or unimodal documents, MRMR
offers a realistic setting with multi-image queries and mixed-modality corpus
documents. We conduct an extensive evaluation of 4 categories of multimodal
retrieval systems and 14 frontier models on MRMR. The text embedding model
Qwen3-Embedding with LLM-generated image captions achieves the highest
performance, highlighting substantial room for improving multimodal retrieval
models. Although latest multimodal models such as Ops-MM-Embedding perform
competitively on expert-domain queries, they fall short on reasoning-intensive
tasks. We believe that MRMR paves the way for advancing multimodal retrieval in
more realistic and challenging scenarios.