MMDeepResearch-Bench: Een Benchmark voor Multimodale Deep Research Agents

Samenvatting

Deep Research Agents (DRA's) genereren citatierijke rapporten via meerstaps zoek- en synthesemethoden, maar bestaande benchmarks richten zich voornamelijk op tekstgebonden settings of kortdurende multimodale vraag-antwoordtaken, waarbij end-to-end multimodaal bewijsgebruik ontbreekt. Wij introduceren MMDeepResearch-Bench (MMDR-Bench), een benchmark met 140 door experts samengestelde taken verspreid over 21 domeinen, waarbij elke taak een beeld-tekstbundel biedt om multimodaal begrip en citatie-onderbouwde rapportgeneratie te evalueren. In vergelijking met eerdere opzetten benadrukt MMDR-Bench rapportstijl-synthese met expliciet bewijsgebruik, waarbij modellen visuele artefacten moeten koppelen aan gesourcede claims en consistentie moeten handhaven tussen narratief, citaties en visuele referenties. Wij stellen verder een uniforme, interpreteerbare evaluatiepijplijn voor: Formula-LLM Adaptive Evaluation (FLAE) voor rapportkwaliteit, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) voor citatie-onderbouwde bewijsafstemming, en Multimodal Support-Aligned Integrity Check (MOSAIC) voor tekst-visuele integriteit. Elk produceert fijnmazige signalen die foutdiagnose ondersteunen voorbij een enkele algemene score. Experimenten met 25 state-of-the-art modellen onthullen systematische afwegingen tussen generatiekwaliteit, citatiediscipline en multimodale verankering, en benadrukken dat sterke proza alleen geen getrouw bewijsgebruik garandeert en dat multimodale integriteit een belangrijk knelpunt blijft voor deep research agents.

English

Deep Research Agents (DRAs) generate citation-rich reports via multi-step search and synthesis, yet existing benchmarks mainly target text-only settings or short-form multimodal QA, missing end-to-end multimodal evidence use. We introduce MMDeepResearch-Bench (MMDR-Bench), a benchmark of 140 expert-crafted tasks across 21 domains, where each task provides an image-text bundle to evaluate multimodal understanding and citation-grounded report generation. Compared to prior setups, MMDR-Bench emphasizes report-style synthesis with explicit evidence use, where models must connect visual artifacts to sourced claims and maintain consistency across narrative, citations, and visual references. We further propose a unified, interpretable evaluation pipeline: Formula-LLM Adaptive Evaluation (FLAE) for report quality, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) for citation-grounded evidence alignment, and Multimodal Support-Aligned Integrity Check (MOSAIC) for text-visual integrity, each producing fine-grained signals that support error diagnosis beyond a single overall score. Experiments across 25 state-of-the-art models reveal systematic trade-offs between generation quality, citation discipline, and multimodal grounding, highlighting that strong prose alone does not guarantee faithful evidence use and that multimodal integrity remains a key bottleneck for deep research agents.