ChatPaper.aiChatPaper

MMDeepResearch-Bench: Un Punto de Referencia para Agentes de Investigación Profunda Multimodal

MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents

January 18, 2026
Autores: Peizhou Huang, Zixuan Zhong, Zhongwei Wan, Donghao Zhou, Samiul Alam, Xin Wang, Zexin Li, Zhihao Dou, Li Zhu, Jing Xiong, Chaofan Tao, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang
cs.AI

Resumen

Los Agentes de Investigación Profunda (DRA, por sus siglas en inglés) generan informes ricos en citas mediante procesos de búsqueda y síntesis multi-etapa. Sin embargo, los puntos de referencia existentes se centran principalmente en entornos de solo texto o en preguntas y respuestas multimodales breves, pasando por alto la evaluación integral del uso de evidencia multimodal de extremo a extremo. Presentamos MMDeepResearch-Bench (MMDR-Bench), un punto de referencia que consta de 140 tareas elaboradas por expertos en 21 dominios, donde cada tarea proporciona un conjunto de imagen-texto para evaluar la comprensión multimodal y la generación de informes anclados en citas. En comparación con configuraciones anteriores, MMDR-Bench hace hincapié en la síntesis de estilo informe con un uso explícito de evidencia, donde los modelos deben conectar artefactos visuales con afirmaciones referenciadas y mantener la coherencia entre la narrativa, las citas y las referencias visuales. Además, proponemos una pipeline de evaluación unificada e interpretable: la Evaluación Adaptativa Formula-LLM (FLAE) para la calidad del informe, la Evaluación de Citas Alineadas con Recuperación Confiable (TRACE) para la alineación de la evidencia basada en citas, y la Verificación de Integridad Alineada con Soporte Multimodal (MOSAIC) para la integridad texto-visual. Cada una produce señales detalladas que permiten diagnosticar errores más allá de una única puntuación general. Los experimentos con 25 modelos de vanguardia revelan compensaciones sistemáticas entre la calidad de la generación, la disciplina de citación y la fundamentación multimodal, destacando que una prosa sólida por sí sola no garantiza un uso fiel de la evidencia y que la integridad multimodal sigue siendo un cuello de botella clave para los agentes de investigación profunda.
English
Deep Research Agents (DRAs) generate citation-rich reports via multi-step search and synthesis, yet existing benchmarks mainly target text-only settings or short-form multimodal QA, missing end-to-end multimodal evidence use. We introduce MMDeepResearch-Bench (MMDR-Bench), a benchmark of 140 expert-crafted tasks across 21 domains, where each task provides an image-text bundle to evaluate multimodal understanding and citation-grounded report generation. Compared to prior setups, MMDR-Bench emphasizes report-style synthesis with explicit evidence use, where models must connect visual artifacts to sourced claims and maintain consistency across narrative, citations, and visual references. We further propose a unified, interpretable evaluation pipeline: Formula-LLM Adaptive Evaluation (FLAE) for report quality, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) for citation-grounded evidence alignment, and Multimodal Support-Aligned Integrity Check (MOSAIC) for text-visual integrity, each producing fine-grained signals that support error diagnosis beyond a single overall score. Experiments across 25 state-of-the-art models reveal systematic trade-offs between generation quality, citation discipline, and multimodal grounding, highlighting that strong prose alone does not guarantee faithful evidence use and that multimodal integrity remains a key bottleneck for deep research agents.
PDF411January 23, 2026