MMDeepResearch-Bench:マルチモーダル深層研究エージェントのためのベンチマーク
MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
January 18, 2026
著者: Peizhou Huang, Zixuan Zhong, Zhongwei Wan, Donghao Zhou, Samiul Alam, Xin Wang, Zexin Li, Zhihao Dou, Li Zhu, Jing Xiong, Chaofan Tao, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang
cs.AI
要旨
深層研究エージェント(DRA)は、多段階の検索と統合により引用豊富な報告書を生成するが、既存のベンチマークは主にテキストのみの設定または短形式のマルチモーダルQAを対象としており、エンドツーエンドのマルチモーダル証拠活用を評価できていない。本研究では、21分野にわたる140の専門家作成タスクからなるベンチマークMMDeepResearch-Bench(MMDR-Bench)を提案する。各タスクは画像-テキストバンドルを提供し、マルチモーダル理解と引用根拠付き報告書生成を評価する。従来の設定と比較し、MMDR-Benchは明示的な証拠活用を伴う報告書スタイルの統合を重視し、モデルは視覚的要素と引用主張を関連付け、叙述・引用・視覚的参照間の一貫性を維持する必要がある。さらに、統一された解釈可能な評価パイプラインを提案する:報告書品質のためのFormula-LLM適応評価(FLAE)、引用根拠付き証拠整合性のための信頼性検索整合引用評価(TRACE)、テキスト-視覚的整合性のためのマルチモーダル支援整合性検査(MOSAIC)である。各評価は単一の総合スコアを超えた詳細な信号を生成し、誤り診断を支援する。25の最先端モデルによる実験では、生成品質、引用規律、マルチモーダル基盤化の間の体系的トレードオフが明らかとなり、優れた文章表現だけでは忠実な証拠活用を保証せず、マルチモーダル整合性が深層研究エージェントの主要なボトルネックであることが示された。
English
Deep Research Agents (DRAs) generate citation-rich reports via multi-step search and synthesis, yet existing benchmarks mainly target text-only settings or short-form multimodal QA, missing end-to-end multimodal evidence use. We introduce MMDeepResearch-Bench (MMDR-Bench), a benchmark of 140 expert-crafted tasks across 21 domains, where each task provides an image-text bundle to evaluate multimodal understanding and citation-grounded report generation. Compared to prior setups, MMDR-Bench emphasizes report-style synthesis with explicit evidence use, where models must connect visual artifacts to sourced claims and maintain consistency across narrative, citations, and visual references. We further propose a unified, interpretable evaluation pipeline: Formula-LLM Adaptive Evaluation (FLAE) for report quality, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) for citation-grounded evidence alignment, and Multimodal Support-Aligned Integrity Check (MOSAIC) for text-visual integrity, each producing fine-grained signals that support error diagnosis beyond a single overall score. Experiments across 25 state-of-the-art models reveal systematic trade-offs between generation quality, citation discipline, and multimodal grounding, highlighting that strong prose alone does not guarantee faithful evidence use and that multimodal integrity remains a key bottleneck for deep research agents.