MMDeepResearch-Bench: Um Benchmark para Agentes de Pesquisa Profunda Multimodal
MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents
January 18, 2026
Autores: Peizhou Huang, Zixuan Zhong, Zhongwei Wan, Donghao Zhou, Samiul Alam, Xin Wang, Zexin Li, Zhihao Dou, Li Zhu, Jing Xiong, Chaofan Tao, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang
cs.AI
Resumo
Os Agentes de Pesquisa Profunda (DRAs) geram relatórios ricos em citações por meio de busca e síntese multi-etapas, no entanto, os benchmarks existentes focam principalmente em configurações apenas de texto ou em QA multimodal de formato curto, não abrangendo o uso de evidências multimodais de ponta a ponta. Apresentamos o MMDeepResearch-Bench (MMDR-Bench), um benchmark composto por 140 tarefas elaboradas por especialistas em 21 domínios, onde cada tarefa fornece um pacote de imagem-texto para avaliar a compreensão multimodal e a geração de relatórios ancorada em citações. Em comparação com configurações anteriores, o MMDR-Bench enfatiza a síntese em estilo de relatório com uso explícito de evidências, onde os modelos devem conectar artefatos visuais a afirmações fonteadas e manter a consistência entre narrativa, citações e referências visuais. Propomos ainda um pipeline de avaliação unificado e interpretável: a Avaliação Adaptativa Formula-LLM (FLAE) para a qualidade do relatório, a Avaliação de Citação Alinhada à Recuperação Confiável (TRACE) para o alinhamento das evidências com as citações, e a Verificação de Integridade Alinhada ao Suporte Multimodal (MOSAIC) para a integridade texto-visual, cada um produzindo sinais granulares que suportam o diagnóstico de erros para além de uma única pontuação geral. Experimentos com 25 modelos state-of-the-art revelam trade-offs sistemáticos entre qualidade da geração, disciplina de citação e fundamentação multimodal, destacando que uma prosa de alta qualidade por si só não garante o uso fiel de evidências e que a integridade multimodal permanece um gargalo crítico para os agentes de pesquisa profunda.
English
Deep Research Agents (DRAs) generate citation-rich reports via multi-step search and synthesis, yet existing benchmarks mainly target text-only settings or short-form multimodal QA, missing end-to-end multimodal evidence use. We introduce MMDeepResearch-Bench (MMDR-Bench), a benchmark of 140 expert-crafted tasks across 21 domains, where each task provides an image-text bundle to evaluate multimodal understanding and citation-grounded report generation. Compared to prior setups, MMDR-Bench emphasizes report-style synthesis with explicit evidence use, where models must connect visual artifacts to sourced claims and maintain consistency across narrative, citations, and visual references. We further propose a unified, interpretable evaluation pipeline: Formula-LLM Adaptive Evaluation (FLAE) for report quality, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) for citation-grounded evidence alignment, and Multimodal Support-Aligned Integrity Check (MOSAIC) for text-visual integrity, each producing fine-grained signals that support error diagnosis beyond a single overall score. Experiments across 25 state-of-the-art models reveal systematic trade-offs between generation quality, citation discipline, and multimodal grounding, highlighting that strong prose alone does not guarantee faithful evidence use and that multimodal integrity remains a key bottleneck for deep research agents.