MMDeepResearch-Bench: Um Benchmark para Agentes de Pesquisa Profunda Multimodal

Resumo

Os Agentes de Pesquisa Profunda (DRAs) geram relatórios ricos em citações por meio de busca e síntese multi-etapas, no entanto, os benchmarks existentes focam principalmente em configurações apenas de texto ou em QA multimodal de formato curto, não abrangendo o uso de evidências multimodais de ponta a ponta. Apresentamos o MMDeepResearch-Bench (MMDR-Bench), um benchmark composto por 140 tarefas elaboradas por especialistas em 21 domínios, onde cada tarefa fornece um pacote de imagem-texto para avaliar a compreensão multimodal e a geração de relatórios ancorada em citações. Em comparação com configurações anteriores, o MMDR-Bench enfatiza a síntese em estilo de relatório com uso explícito de evidências, onde os modelos devem conectar artefatos visuais a afirmações fonteadas e manter a consistência entre narrativa, citações e referências visuais. Propomos ainda um pipeline de avaliação unificado e interpretável: a Avaliação Adaptativa Formula-LLM (FLAE) para a qualidade do relatório, a Avaliação de Citação Alinhada à Recuperação Confiável (TRACE) para o alinhamento das evidências com as citações, e a Verificação de Integridade Alinhada ao Suporte Multimodal (MOSAIC) para a integridade texto-visual, cada um produzindo sinais granulares que suportam o diagnóstico de erros para além de uma única pontuação geral. Experimentos com 25 modelos state-of-the-art revelam trade-offs sistemáticos entre qualidade da geração, disciplina de citação e fundamentação multimodal, destacando que uma prosa de alta qualidade por si só não garante o uso fiel de evidências e que a integridade multimodal permanece um gargalo crítico para os agentes de pesquisa profunda.

English

Deep Research Agents (DRAs) generate citation-rich reports via multi-step search and synthesis, yet existing benchmarks mainly target text-only settings or short-form multimodal QA, missing end-to-end multimodal evidence use. We introduce MMDeepResearch-Bench (MMDR-Bench), a benchmark of 140 expert-crafted tasks across 21 domains, where each task provides an image-text bundle to evaluate multimodal understanding and citation-grounded report generation. Compared to prior setups, MMDR-Bench emphasizes report-style synthesis with explicit evidence use, where models must connect visual artifacts to sourced claims and maintain consistency across narrative, citations, and visual references. We further propose a unified, interpretable evaluation pipeline: Formula-LLM Adaptive Evaluation (FLAE) for report quality, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) for citation-grounded evidence alignment, and Multimodal Support-Aligned Integrity Check (MOSAIC) for text-visual integrity, each producing fine-grained signals that support error diagnosis beyond a single overall score. Experiments across 25 state-of-the-art models reveal systematic trade-offs between generation quality, citation discipline, and multimodal grounding, highlighting that strong prose alone does not guarantee faithful evidence use and that multimodal integrity remains a key bottleneck for deep research agents.