ChatPaper.aiChatPaper

MRMR: 추론 집약적 멀티모달 검색을 위한 현실적이고 전문가 수준의 다학제 벤치마크

MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval

October 10, 2025
저자: Siyue Zhang, Yuan Gao, Xiao Zhou, Yilun Zhao, Tingyu Song, Arman Cohan, Anh Tuan Luu, Chen Zhao
cs.AI

초록

우리는 집중적인 추론을 요구하는 최초의 전문가 수준 다학제적 멀티모달 검색 벤치마크인 MRMR을 소개한다. MRMR은 23개 도메인에 걸친 1,502개의 쿼리로 구성되어 있으며, 긍정적인 문서는 인간 전문가들이 신중하게 검증하였다. 기존 벤치마크와 비교하여 MRMR은 세 가지 주요 발전을 도입했다. 첫째, 다양한 전문 분야에 걸쳐 검색 시스템에 도전함으로써 도메인 간 세밀한 모델 비교를 가능하게 한다. 둘째, 쿼리는 현미경 슬라이드 진단과 같은 깊은 해석을 요구하는 이미지를 포함하여 추론 집약적이다. 또한, 모델이 상충하는 개념을 식별해야 하는 새로운 과제인 모순 검색(Contradiction Retrieval)을 도입했다. 마지막으로, 쿼리와 문서는 이미지-텍스트가 교차된 시퀀스로 구성된다. 단일 이미지나 단일 모달 문서로 제한되었던 이전 벤치마크와 달리, MRMR은 다중 이미지 쿼리와 혼합 모달리티 코퍼스 문서를 포함한 현실적인 설정을 제공한다. 우리는 MRMR에서 4개 범주의 멀티모달 검색 시스템과 14개의 최신 모델에 대한 광범위한 평가를 수행했다. LLM 생성 이미지 캡션을 활용한 텍스트 임베딩 모델 Qwen3-Embedding이 가장 높은 성능을 달성하며, 멀티모달 검색 모델의 개선을 위한 상당한 여지를 보여주었다. Ops-MM-Embedding과 같은 최신 멀티모달 모델들은 전문 도메인 쿼리에서는 경쟁력 있는 성능을 보이지만, 추론 집약적 과제에서는 부족함을 드러냈다. 우리는 MRMR이 더 현실적이고 도전적인 시나리오에서 멀티모달 검색을 발전시키는 길을 열어줄 것이라 믿는다.
English
We introduce MRMR, the first expert-level multidisciplinary multimodal retrieval benchmark requiring intensive reasoning. MRMR contains 1,502 queries spanning 23 domains, with positive documents carefully verified by human experts. Compared to prior benchmarks, MRMR introduces three key advancements. First, it challenges retrieval systems across diverse areas of expertise, enabling fine-grained model comparison across domains. Second, queries are reasoning-intensive, with images requiring deeper interpretation such as diagnosing microscopic slides. We further introduce Contradiction Retrieval, a novel task requiring models to identify conflicting concepts. Finally, queries and documents are constructed as image-text interleaved sequences. Unlike earlier benchmarks restricted to single images or unimodal documents, MRMR offers a realistic setting with multi-image queries and mixed-modality corpus documents. We conduct an extensive evaluation of 4 categories of multimodal retrieval systems and 14 frontier models on MRMR. The text embedding model Qwen3-Embedding with LLM-generated image captions achieves the highest performance, highlighting substantial room for improving multimodal retrieval models. Although latest multimodal models such as Ops-MM-Embedding perform competitively on expert-domain queries, they fall short on reasoning-intensive tasks. We believe that MRMR paves the way for advancing multimodal retrieval in more realistic and challenging scenarios.
PDF72October 13, 2025