MiroEval: Benchmarking von multimodalen Deep Research Agents in Prozess und Ergebnis
MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome
March 30, 2026
Autoren: Fangda Ye, Yuxin Hu, Pengxiang Zhu, Yibo Li, Ziqi Jin, Yao Xiao, Yibo Wang, Lei Wang, Zhen Zhang, Lu Wang, Yue Deng, Bin Wang, Yifan Zhang, Liangcai Su, Xinyu Wang, He Zhao, Chen Wei, Qiang Ren, Bryan Hooi, An Bo, Shuicheng Yan, Lidong Bing
cs.AI
Zusammenfassung
Die jüngsten Fortschritte bei Deep-Research-Systemen sind beeindruckend, doch die Evaluierung hinkt den realen Nutzerbedürfnissen noch hinterher. Bestehende Benchmarks bewerten vorwiegend Endberichte anhand starrer Bewertungsraster und erfassen nicht den zugrundeliegenden Forschungsprozess. Die meisten bieten zudem nur begrenzte multimodale Abdeckung, basieren auf synthetischen Aufgaben, die die Komplexität realer Anfragen nicht widerspiegeln, und lassen sich nicht an Wissensaktualisierungen anpassen. Um diese Lücken zu schließen, stellen wir MiroEval vor – einen Benchmark und Evaluierungsrahmen für Deep-Research-Systeme. Der Benchmark umfasst 100 Aufgaben (70 rein textbasiert, 30 multimodal), die allesamt auf echten Nutzerbedürfnissen basieren und durch eine Dual-Path-Pipeline erstellt werden, die regelmäßige Updates unterstützt, um eine dynamische und sich entwickelnde Testumgebung zu ermöglichen. Das vorgeschlagene Evaluierungsset bewertet Deep-Research-Systeme entlang drei komplementärer Dimensionen: adaptive Bewertung der Synthesequalität mit aufgabenspezifischen Rubriken, agentenbasierte Faktenprüfung durch aktive Recherche und Schlussfolgerung aus Webquellen und multimodalen Anhängen, sowie prozesszentrierte Evaluation, die untersucht, wie das System während seiner Recherche sucht, schlussfolgert und verfeinert. Die Evaluierung von 13 Systemen ergab drei Haupterkenntnisse: Die drei Bewertungsdimensionen erfassen komplementäre Aspekte der Systemfähigkeiten, wobei jede unterschiedliche Stärken und Schwächen aufdeckt; die Prozessqualität dient als zuverlässiger Prädiktor für das Gesamtergebnis und zeigt Schwächen auf, die auf Ergebnisebene unsichtbar bleiben; und multimodale Aufgaben stellen erheblich größere Herausforderungen dar, wobei die meisten Systeme um 3 bis 10 Punkte absinken. Die MiroThinker-Serie erzielt die ausgewogenste Leistung, wobei MiroThinker-H1 in beiden Settings insgesamt am höchsten bewertet wird. Menschliche Verifikation und Robustheitsergebnisse bestätigen die Zuverlässigkeit des Benchmarks und Evaluierungsrahmens. MiroEval bietet ein holistisches Diagnosewerkzeug für die nächste Generation von Deep-Research-Agenten.
English
Recent progress in deep research systems has been impressive, but evaluation still lags behind real user needs. Existing benchmarks predominantly assess final reports using fixed rubrics, failing to evaluate the underlying research process. Most also offer limited multimodal coverage, rely on synthetic tasks that do not reflect real-world query complexity, and cannot be refreshed as knowledge evolves. To address these gaps, we introduce MiroEval, a benchmark and evaluation framework for deep research systems. The benchmark comprises 100 tasks (70 text-only, 30 multimodal), all grounded in real user needs and constructed via a dual-path pipeline that supports periodic updates, enabling a live and evolving setting. The proposed evaluation suite assesses deep research systems along three complementary dimensions: adaptive synthesis quality evaluation with task-specific rubrics, agentic factuality verification via active retrieval and reasoning over both web sources and multimodal attachments, and process-centric evaluation audits how the system searches, reasons, and refines throughout its investigation. Evaluation across 13 systems yields three principal findings: the three evaluation dimensions capture complementary aspects of system capability, with each revealing distinct strengths and weaknesses across systems; process quality serves as a reliable predictor of overall outcome while revealing weaknesses invisible to output-level metrics; and multimodal tasks pose substantially greater challenges, with most systems declining by 3 to 10 points. The MiroThinker series achieves the most balanced performance, with MiroThinker-H1 ranking the highest overall in both settings. Human verification and robustness results confirm the reliability of the benchmark and evaluation framework. MiroEval provides a holistic diagnostic tool for the next generation of deep research agents.