MMDeepResearch-Bench: Бенчмарк для мультимодальных агентов углубленного исследования
MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
January 18, 2026
Авторы: Peizhou Huang, Zixuan Zhong, Zhongwei Wan, Donghao Zhou, Samiul Alam, Xin Wang, Zexin Li, Zhihao Dou, Li Zhu, Jing Xiong, Chaofan Tao, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang
cs.AI
Аннотация
Глубокие исследовательские агенты (DRA) генерируют отчеты, насыщенные цитированиями, посредством многоэтапного поиска и синтеза, однако существующие бенчмарки в основном ориентированы на текстовые среды или краткие мультимодальные вопросы-ответы, упуская сквозное использование мультимодальных свидетельств. Мы представляем MMDeepResearch-Bench (MMDR-Bench) — бенчмарк из 140 экспертно разработанных задач в 21 предметной области, где каждая задача предоставляет связку «изображение-текст» для оценки мультимодального понимания и генерации отчетов, обоснованных цитированиями. По сравнению с предыдущими подходами, MMDR-Bench делает акцент на синтезе в стиле отчетов с явным использованием свидетельств, где модели должны связывать визуальные артефакты с заимствованными утверждениями и поддерживать согласованность между повествованием, цитированиями и визуальными ссылками. Мы также предлагаем унифицированный, интерпретируемый конвейер оценки: Formula-LLM Adaptive Evaluation (FLAE) для качества отчета, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) для соответствия доказательств, обоснованных цитированиями, и Multimodal Support-Aligned Integrity Check (MOSAIC) для целостности «текст-визуал», — каждый из которых дает детализированные сигналы, поддерживающие диагностику ошибок за пределами единого общего балла. Эксперименты с 25 современными моделями выявляют системные компромиссы между качеством генерации, дисциплиной цитирования и мультимодальной обоснованностью, демонстрируя, что одной лишь сильной прозы недостаточно для гарантии достоверного использования свидетельств и что мультимодальная целостность остается ключевым узким местом для глубоких исследовательских агентов.
English
Deep Research Agents (DRAs) generate citation-rich reports via multi-step search and synthesis, yet existing benchmarks mainly target text-only settings or short-form multimodal QA, missing end-to-end multimodal evidence use. We introduce MMDeepResearch-Bench (MMDR-Bench), a benchmark of 140 expert-crafted tasks across 21 domains, where each task provides an image-text bundle to evaluate multimodal understanding and citation-grounded report generation. Compared to prior setups, MMDR-Bench emphasizes report-style synthesis with explicit evidence use, where models must connect visual artifacts to sourced claims and maintain consistency across narrative, citations, and visual references. We further propose a unified, interpretable evaluation pipeline: Formula-LLM Adaptive Evaluation (FLAE) for report quality, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) for citation-grounded evidence alignment, and Multimodal Support-Aligned Integrity Check (MOSAIC) for text-visual integrity, each producing fine-grained signals that support error diagnosis beyond a single overall score. Experiments across 25 state-of-the-art models reveal systematic trade-offs between generation quality, citation discipline, and multimodal grounding, highlighting that strong prose alone does not guarantee faithful evidence use and that multimodal integrity remains a key bottleneck for deep research agents.