MMDeepResearch-Bench : Un Référentiel pour les Agents de Recherche Profonde Multimodaux
MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
January 18, 2026
papers.authors: Peizhou Huang, Zixuan Zhong, Zhongwei Wan, Donghao Zhou, Samiul Alam, Xin Wang, Zexin Li, Zhihao Dou, Li Zhu, Jing Xiong, Chaofan Tao, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang
cs.AI
papers.abstract
Les agents de recherche approfondie (Deep Research Agents, DRA) génèrent des rapports riches en citations via une recherche et une synthèse en plusieurs étapes. Pourtant, les benchmarks existants ciblent principalement des environnements textuels uniquement ou des questions-réponses multimodales de courte forme, omettant l'utilisation de preuves multimodales de bout en bout. Nous présentons MMDeepResearch-Bench (MMDR-Bench), un benchmark de 140 tâches conçues par des experts réparties dans 21 domaines, où chaque tâche fournit un ensemble image-texte pour évaluer la compréhension multimodale et la génération de rapports ancrée sur les citations.
Comparé aux configurations antérieures, MMDR-Bench met l'accent sur une synthèse de type rapport avec une utilisation explicite des preuves, où les modèles doivent relier les artefacts visuels aux affirmations sourcées et maintenir la cohérence entre le récit, les citations et les références visuelles. Nous proposons en outre une pipeline d'évaluation unifiée et interprétable : l'Évaluation Adaptative Formula-LLM (FLAE) pour la qualité du rapport, l'Évaluation des Citations Alignée sur la Récupération Fiable (TRACE) pour l'alignement des preuves sur les citations, et le Contrôle d'Intégrité Aligné sur le Support Multimodal (MOSAIC) pour l'intégrité texte-visuel. Chacune produit des signaux granulaires qui soutiennent le diagnostic d'erreurs au-delà d'un simple score global.
Des expériences sur 25 modèles de pointe révèlent des compromis systématiques entre la qualité de la génération, la rigueur des citations et l'ancrage multimodal, soulignant qu'une prose de qualité ne garantit pas à elle seule une utilisation fidèle des preuves et que l'intégrité multimodale reste un goulot d'étranglement clé pour les agents de recherche approfondie.
English
Deep Research Agents (DRAs) generate citation-rich reports via multi-step search and synthesis, yet existing benchmarks mainly target text-only settings or short-form multimodal QA, missing end-to-end multimodal evidence use. We introduce MMDeepResearch-Bench (MMDR-Bench), a benchmark of 140 expert-crafted tasks across 21 domains, where each task provides an image-text bundle to evaluate multimodal understanding and citation-grounded report generation. Compared to prior setups, MMDR-Bench emphasizes report-style synthesis with explicit evidence use, where models must connect visual artifacts to sourced claims and maintain consistency across narrative, citations, and visual references. We further propose a unified, interpretable evaluation pipeline: Formula-LLM Adaptive Evaluation (FLAE) for report quality, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) for citation-grounded evidence alignment, and Multimodal Support-Aligned Integrity Check (MOSAIC) for text-visual integrity, each producing fine-grained signals that support error diagnosis beyond a single overall score. Experiments across 25 state-of-the-art models reveal systematic trade-offs between generation quality, citation discipline, and multimodal grounding, highlighting that strong prose alone does not guarantee faithful evidence use and that multimodal integrity remains a key bottleneck for deep research agents.