MiroEval: Avaliação de Agentes de Pesquisa Profunda Multimodais em Processo e Resultado
MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome
March 30, 2026
Autores: Fangda Ye, Yuxin Hu, Pengxiang Zhu, Yibo Li, Ziqi Jin, Yao Xiao, Yibo Wang, Lei Wang, Zhen Zhang, Lu Wang, Yue Deng, Bin Wang, Yifan Zhang, Liangcai Su, Xinyu Wang, He Zhao, Chen Wei, Qiang Ren, Bryan Hooi, An Bo, Shuicheng Yan, Lidong Bing
cs.AI
Resumo
Os recentes avanços nos sistemas de pesquisa profunda têm sido impressionantes, mas a avaliação ainda fica aquém das necessidades reais dos utilizadores. Os benchmarks existentes avaliam predominantemente relatórios finais usando rubricas fixas, falhando em avaliar o processo de pesquisa subjacente. A maioria também oferece cobertura multimodal limitada, depende de tarefas sintéticas que não refletem a complexidade de consultas do mundo real e não pode ser atualizada à medida que o conhecimento evolui. Para colmatar estas lacunas, apresentamos o MiroEval, um benchmark e framework de avaliação para sistemas de pesquisa profunda. O benchmark compreende 100 tarefas (70 apenas texto, 30 multimodais), todas fundamentadas em necessidades reais dos utilizadores e construídas através de um pipeline de duplo percurso que suporta atualizações periódicas, permitindo um ambiente dinâmico e em evolução. O conjunto de avaliação proposto avalia os sistemas de pesquisa profunda ao longo de três dimensões complementares: avaliação adaptativa da qualidade de síntese com rubricas específicas por tarefa, verificação de factualidade agentiva através de recuperação ativa e raciocínio sobre fontes web e anexos multimodais, e avaliação centrada no processo que audita como o sistema pesquisa, raciocina e refina ao longo da sua investigação. A avaliação de 13 sistemas produz três conclusões principais: as três dimensões de avaliação capturam aspetos complementares da capacidade do sistema, com cada uma a revelar pontos fortes e fracos distintos entre os sistemas; a qualidade do processo serve como um indicador fiável do resultado global, revelando fraquezas invisíveis para métricas de nível de output; e as tarefas multimodais apresentam desafios substancialmente maiores, com a maioria dos sistemas a registar quedas de 3 a 10 pontos. A série MiroThinker alcança o desempenho mais equilibrado, com o MiroThinker-H1 a classificar-se no topo geral em ambos os cenários. Os resultados de verificação humana e robustez confirmam a fiabilidade do benchmark e do framework de avaliação. O MiroEval fornece uma ferramenta de diagnóstico holística para a próxima geração de agentes de pesquisa profunda.
English
Recent progress in deep research systems has been impressive, but evaluation still lags behind real user needs. Existing benchmarks predominantly assess final reports using fixed rubrics, failing to evaluate the underlying research process. Most also offer limited multimodal coverage, rely on synthetic tasks that do not reflect real-world query complexity, and cannot be refreshed as knowledge evolves. To address these gaps, we introduce MiroEval, a benchmark and evaluation framework for deep research systems. The benchmark comprises 100 tasks (70 text-only, 30 multimodal), all grounded in real user needs and constructed via a dual-path pipeline that supports periodic updates, enabling a live and evolving setting. The proposed evaluation suite assesses deep research systems along three complementary dimensions: adaptive synthesis quality evaluation with task-specific rubrics, agentic factuality verification via active retrieval and reasoning over both web sources and multimodal attachments, and process-centric evaluation audits how the system searches, reasons, and refines throughout its investigation. Evaluation across 13 systems yields three principal findings: the three evaluation dimensions capture complementary aspects of system capability, with each revealing distinct strengths and weaknesses across systems; process quality serves as a reliable predictor of overall outcome while revealing weaknesses invisible to output-level metrics; and multimodal tasks pose substantially greater challenges, with most systems declining by 3 to 10 points. The MiroThinker series achieves the most balanced performance, with MiroThinker-H1 ranking the highest overall in both settings. Human verification and robustness results confirm the reliability of the benchmark and evaluation framework. MiroEval provides a holistic diagnostic tool for the next generation of deep research agents.