ChatPaper.aiChatPaper

MiroEval: Evaluación Comparativa de Agentes de Investigación Profunda Multimodales en Proceso y Resultado

MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

March 30, 2026
Autores: Fangda Ye, Yuxin Hu, Pengxiang Zhu, Yibo Li, Ziqi Jin, Yao Xiao, Yibo Wang, Lei Wang, Zhen Zhang, Lu Wang, Yue Deng, Bin Wang, Yifan Zhang, Liangcai Su, Xinyu Wang, He Zhao, Chen Wei, Qiang Ren, Bryan Hooi, An Bo, Shuicheng Yan, Lidong Bing
cs.AI

Resumen

Los recientes avances en los sistemas de investigación profunda han sido impresionantes, pero la evaluación aún va por detrás de las necesidades reales de los usuarios. Los puntos de referencia existentes evalúan predominantemente los informes finales mediante rúbricas fijas, sin evaluar el proceso de investigación subyacente. La mayoría también ofrece una cobertura multimodal limitada, se basa en tareas sintéticas que no reflejan la complejidad de las consultas del mundo real y no puede actualizarse a medida que evoluciona el conocimiento. Para abordar estas deficiencias, presentamos MiroEval, un punto de referencia y marco de evaluación para sistemas de investigación profunda. El benchmark comprende 100 tareas (70 solo texto, 30 multimodales), todas basadas en necesidades reales de usuarios y construidas mediante una canalización de doble vía que admite actualizaciones periódicas, permitiendo un entorno dinámico y en evolución. La suite de evaluación propuesta valora los sistemas de investigación profunda en tres dimensiones complementarias: evaluación de calidad de síntesis adaptativa con rúbricas específicas por tarea, verificación de factualidad agentiva mediante recuperación activa y razonamiento sobre fuentes web y archivos adjuntos multimodales, y evaluación centrada en el proceso que audita cómo el sistema busca, razona y refina durante su investigación. La evaluación de 13 sistemas arroja tres hallazgos principales: las tres dimensiones de evaluación capturan aspectos complementarios de la capacidad del sistema, revelando cada una fortalezas y debilidades distintas entre sistemas; la calidad del proceso sirve como predictor confiable del resultado general mientras revela debilidades invisibles para las métricas a nivel de salida; y las tareas multimodales plantean desafíos sustancialmente mayores, con la mayoría de los sistemas decayendo entre 3 y 10 puntos. La serie MiroThinker logra el rendimiento más equilibrado, con MiroThinker-H1 clasificándose como el más alto en general en ambos entornos. Los resultados de verificación humana y robustez confirman la fiabilidad del benchmark y el marco de evaluación. MiroEval proporciona una herramienta de diagnóstico holística para la próxima generación de agentes de investigación profunda.
English
Recent progress in deep research systems has been impressive, but evaluation still lags behind real user needs. Existing benchmarks predominantly assess final reports using fixed rubrics, failing to evaluate the underlying research process. Most also offer limited multimodal coverage, rely on synthetic tasks that do not reflect real-world query complexity, and cannot be refreshed as knowledge evolves. To address these gaps, we introduce MiroEval, a benchmark and evaluation framework for deep research systems. The benchmark comprises 100 tasks (70 text-only, 30 multimodal), all grounded in real user needs and constructed via a dual-path pipeline that supports periodic updates, enabling a live and evolving setting. The proposed evaluation suite assesses deep research systems along three complementary dimensions: adaptive synthesis quality evaluation with task-specific rubrics, agentic factuality verification via active retrieval and reasoning over both web sources and multimodal attachments, and process-centric evaluation audits how the system searches, reasons, and refines throughout its investigation. Evaluation across 13 systems yields three principal findings: the three evaluation dimensions capture complementary aspects of system capability, with each revealing distinct strengths and weaknesses across systems; process quality serves as a reliable predictor of overall outcome while revealing weaknesses invisible to output-level metrics; and multimodal tasks pose substantially greater challenges, with most systems declining by 3 to 10 points. The MiroThinker series achieves the most balanced performance, with MiroThinker-H1 ranking the highest overall in both settings. Human verification and robustness results confirm the reliability of the benchmark and evaluation framework. MiroEval provides a holistic diagnostic tool for the next generation of deep research agents.
PDF522April 3, 2026