ChatPaper.aiChatPaper

MiroEval : Évaluation comparative des agents de recherche profonds multimodaux en termes de processus et de résultats

MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

March 30, 2026
Auteurs: Fangda Ye, Yuxin Hu, Pengxiang Zhu, Yibo Li, Ziqi Jin, Yao Xiao, Yibo Wang, Lei Wang, Zhen Zhang, Lu Wang, Yue Deng, Bin Wang, Yifan Zhang, Liangcai Su, Xinyu Wang, He Zhao, Chen Wei, Qiang Ren, Bryan Hooi, An Bo, Shuicheng Yan, Lidong Bing
cs.AI

Résumé

Les progrès récents des systèmes de recherche approfondie sont impressionnants, mais leur évaluation reste en deçà des besoins réels des utilisateurs. Les benchmarks existants évaluent principalement les rapports finaux à l'aide de grilles fixes, sans juger le processus de recherche sous-jacent. La plupart offrent également une couverture multimodale limitée, reposent sur des tâches synthétiques qui ne reflètent pas la complexité des requêtes réelles, et ne peuvent être actualisés avec l'évolution des connaissances. Pour combler ces lacunes, nous présentons MiroEval, un benchmark et cadre d'évaluation pour les systèmes de recherche approfondie. Le benchmark comprend 100 tâches (70 textuelles, 30 multimodales), toutes ancrées dans des besoins utilisateurs réels et construites via un pipeline à double voie permettant des mises à jour périodiques, créant ainsi un environnement dynamique et évolutif. La suite d'évaluation proposée juge les systèmes de recherche approfondie selon trois dimensions complémentaires : l'évaluation adaptive de la qualité de synthèse avec des grilles spécifiques aux tâches, la vérification factuelle agentique via une récupération active et un raisonnement sur les sources web et les pièces jointes multimodales, et l'évaluation centrée sur le processus qui audite la manière dont le système recherche, raisonne et affine tout au long de son investigation. L'évaluation de 13 systèmes révèle trois conclusions principales : les trois dimensions d'évaluation capturent des aspects complémentaires des capacités du système, chacune révélant des forces et faiblesses distinctes ; la qualité du processus sert d'indicateur fiable du résultat global tout en révélant des faiblesses invisibles aux métriques de sortie ; et les tâches multimodales présentent des défis substantiellement plus grands, avec une baisse de performance de 3 à 10 points pour la plupart des systèmes. La série MiroThinker obtient les performances les plus équilibrées, avec MiroThinker-H1 classé premier dans les deux contextes. Les vérifications humaines et les résultats de robustesse confirment la fiabilité du benchmark et du cadre d'évaluation. MiroEval fournit un outil de diagnostic holistique pour la prochaine génération d'agents de recherche approfondie.
English
Recent progress in deep research systems has been impressive, but evaluation still lags behind real user needs. Existing benchmarks predominantly assess final reports using fixed rubrics, failing to evaluate the underlying research process. Most also offer limited multimodal coverage, rely on synthetic tasks that do not reflect real-world query complexity, and cannot be refreshed as knowledge evolves. To address these gaps, we introduce MiroEval, a benchmark and evaluation framework for deep research systems. The benchmark comprises 100 tasks (70 text-only, 30 multimodal), all grounded in real user needs and constructed via a dual-path pipeline that supports periodic updates, enabling a live and evolving setting. The proposed evaluation suite assesses deep research systems along three complementary dimensions: adaptive synthesis quality evaluation with task-specific rubrics, agentic factuality verification via active retrieval and reasoning over both web sources and multimodal attachments, and process-centric evaluation audits how the system searches, reasons, and refines throughout its investigation. Evaluation across 13 systems yields three principal findings: the three evaluation dimensions capture complementary aspects of system capability, with each revealing distinct strengths and weaknesses across systems; process quality serves as a reliable predictor of overall outcome while revealing weaknesses invisible to output-level metrics; and multimodal tasks pose substantially greater challenges, with most systems declining by 3 to 10 points. The MiroThinker series achieves the most balanced performance, with MiroThinker-H1 ranking the highest overall in both settings. Human verification and robustness results confirm the reliability of the benchmark and evaluation framework. MiroEval provides a holistic diagnostic tool for the next generation of deep research agents.
PDF522April 3, 2026