ChatPaper.aiChatPaper

MMDeepResearch-Bench: 멀티모달 딥 리서치 에이전트를 위한 벤치마크

MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents

January 18, 2026
저자: Peizhou Huang, Zixuan Zhong, Zhongwei Wan, Donghao Zhou, Samiul Alam, Xin Wang, Zexin Li, Zhihao Dou, Li Zhu, Jing Xiong, Chaofan Tao, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang
cs.AI

초록

딥 리서치 에이전트(DRA)는 다단계 검색 및 종합을 통해 인용이 풍부한 보고서를 생성하지만, 기존 벤치마크는 주로 텍스트 전용 환경이나 단문 형식의 멀티모달 질의응답을 대상으로 하여, 종단간 멀티모달 증거 사용을 평가하지 못하는 한계가 있습니다. 본 연구에서는 21개 도메인에 걸친 전문가 제작 140개 태스크로 구성된 벤치마크인 MMDeepResearch-Bench(MMDR-Bench)를 소개합니다. 각 태스크는 이미지-텍스트 번들을 제공하여 멀티모달 이해 능력과 증거에 기반한 보고서 생성 능력을 평가합니다. 기존 설정과 비교하여 MMDR-Bench는 명시적 증거 사용을 통한 보고서 스타일 종합에 중점을 두며, 모델이 시각적 자료를 출처가 명시된 주장과 연결하고 서술, 인용, 시각적 참조 간 일관성을 유지해야 합니다. 또한 통합적이고 해석 가능한 평가 파이프라인을 제안합니다: 보고서 품질 평가를 위한 FLAE(Formula-LLM Adaptive Evaluation), 증거-인용 정렬도 평가를 위한 TRACE(Trustworthy Retrieval-Aligned Citation Evaluation), 텍스트-시각 정보 무결성 평가를 위한 MOSAIC(Multimodal Support-Aligned Integrity Check)로, 각각 단일 전체 점수 이상의 세분화된 신호를 제공하여 오류 진단을 지원합니다. 25개의 최신 모델에 대한 실험 결과, 생성 품질, 인용 정확성, 멀티모달 근거 간 체계적인 트레이드오프가 확인되었으며, 우수한 문장력만으로는 충실한 증거 사용을 보장할 수 없으며 멀티모달 무결성이 딥 리서치 에이전트의 핵심 병목 현상으로 남아 있음을 보여줍니다.
English
Deep Research Agents (DRAs) generate citation-rich reports via multi-step search and synthesis, yet existing benchmarks mainly target text-only settings or short-form multimodal QA, missing end-to-end multimodal evidence use. We introduce MMDeepResearch-Bench (MMDR-Bench), a benchmark of 140 expert-crafted tasks across 21 domains, where each task provides an image-text bundle to evaluate multimodal understanding and citation-grounded report generation. Compared to prior setups, MMDR-Bench emphasizes report-style synthesis with explicit evidence use, where models must connect visual artifacts to sourced claims and maintain consistency across narrative, citations, and visual references. We further propose a unified, interpretable evaluation pipeline: Formula-LLM Adaptive Evaluation (FLAE) for report quality, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) for citation-grounded evidence alignment, and Multimodal Support-Aligned Integrity Check (MOSAIC) for text-visual integrity, each producing fine-grained signals that support error diagnosis beyond a single overall score. Experiments across 25 state-of-the-art models reveal systematic trade-offs between generation quality, citation discipline, and multimodal grounding, highlighting that strong prose alone does not guarantee faithful evidence use and that multimodal integrity remains a key bottleneck for deep research agents.
PDF411January 23, 2026