ChatPaper.aiChatPaper

MMDeepResearch-Bench: Ein Benchmark für multimodale Forschungsagenten mit Deep Learning

MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents

January 18, 2026
papers.authors: Peizhou Huang, Zixuan Zhong, Zhongwei Wan, Donghao Zhou, Samiul Alam, Xin Wang, Zexin Li, Zhihao Dou, Li Zhu, Jing Xiong, Chaofan Tao, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang
cs.AI

papers.abstract

Deep Research Agents (DRAs) generieren zitatreiche Berichte durch mehrstufige Suche und Synthese, doch bestehende Benchmarks zielen hauptsächlich auf rein textbasierte Settings oder kurze multimodale Frage-Antwort-Szenarien ab und verfehlen die end-to-end Nutzung multimodaler Evidenz. Wir stellen MMDeepResearch-Bench (MMDR-Bench) vor, einen Benchmark mit 140 von Experten erstellten Aufgaben aus 21 Domänen, wobei jede Aufgabe ein Bild-Text-Bündel bereitstellt, um multimodales Verständnis und zitatorisch fundierte Berichterstellung zu evaluieren. Im Vergleich zu früheren Aufbauten betont MMDR-Bench die berichtsartige Synthese mit expliziter Evidenznutzung, bei der Modelle visuelle Artefakte mit belegten Aussagen verknüpfen und Konsistenz über Narrativ, Zitate und visuelle Referenzen hinweg wahren müssen. Wir schlagen weiterhin eine einheitliche, interpretierbare Evaluierungspipeline vor: Formula-LLM Adaptive Evaluation (FLAE) für die Berichtsqualität, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) für die zitatorische Evidenzabstimmung und Multimodal Support-Aligned Integrity Check (MOSAIC) für die Text-Bild-Integrität. Jede Komponente erzeugt feingranulare Signale, die über eine einzelne Gesamtpunktzahl hinausgehende Fehlerdiagnosen unterstützen. Experimente mit 25 state-of-the-art Modellen zeigen systematische Zielkonflikte zwischen Generierungsqualität, Zitierdisziplin und multimodaler Verankerung auf. Sie verdeutlichen, dass allein starke sprachliche Qualität keine korrekte Evidenznutzung garantiert und dass multimodale Integrität ein zentraler Engpass für Deep Research Agents bleibt.
English
Deep Research Agents (DRAs) generate citation-rich reports via multi-step search and synthesis, yet existing benchmarks mainly target text-only settings or short-form multimodal QA, missing end-to-end multimodal evidence use. We introduce MMDeepResearch-Bench (MMDR-Bench), a benchmark of 140 expert-crafted tasks across 21 domains, where each task provides an image-text bundle to evaluate multimodal understanding and citation-grounded report generation. Compared to prior setups, MMDR-Bench emphasizes report-style synthesis with explicit evidence use, where models must connect visual artifacts to sourced claims and maintain consistency across narrative, citations, and visual references. We further propose a unified, interpretable evaluation pipeline: Formula-LLM Adaptive Evaluation (FLAE) for report quality, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) for citation-grounded evidence alignment, and Multimodal Support-Aligned Integrity Check (MOSAIC) for text-visual integrity, each producing fine-grained signals that support error diagnosis beyond a single overall score. Experiments across 25 state-of-the-art models reveal systematic trade-offs between generation quality, citation discipline, and multimodal grounding, highlighting that strong prose alone does not guarantee faithful evidence use and that multimodal integrity remains a key bottleneck for deep research agents.
PDF411January 23, 2026