ChatPaper.aiChatPaper

MiroEval: Benchmarking van Multimodale Diepe Onderzoeksagenten in Proces en Resultaat

MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

March 30, 2026
Auteurs: Fangda Ye, Yuxin Hu, Pengxiang Zhu, Yibo Li, Ziqi Jin, Yao Xiao, Yibo Wang, Lei Wang, Zhen Zhang, Lu Wang, Yue Deng, Bin Wang, Yifan Zhang, Liangcai Su, Xinyu Wang, He Zhao, Chen Wei, Qiang Ren, Bryan Hooi, An Bo, Shuicheng Yan, Lidong Bing
cs.AI

Samenvatting

Recente vooruitgang in diepe onderzoekssystemen is indrukwekkend, maar evaluatie blijft achter bij de werkelijke gebruikersbehoeften. Bestaande benchmarks beoordelen voornamelijk eindrapporten met vaste beoordelingsschema's, zonder het onderliggende onderzoeksproces te evalueren. De meeste bieden ook beperkte multimodale dekking, vertrouwen op synthetische taken die de complexiteit van echte queries niet weerspiegelen, en kunnen niet worden vernieuwd naarmate kennis evolueert. Om deze tekortkomingen aan te pakken, introduceren we MiroEval, een benchmark en evaluatieraamwerk voor diepe onderzoekssystemen. De benchmark omvat 100 taken (70 tekstueel, 30 multimodaal), allemaal gebaseerd op echte gebruikersbehoeften en geconstrueerd via een dual-path pijplijn die periodieke updates ondersteunt, waardoor een live en evoluerende omgeving mogelijk wordt. De voorgestelde evaluatiesuite beoordeelt diepe onderzoekssystemen langs drie complementaire dimensies: adaptieve evaluatie van synthesenkwaliteit met taakspecifieke rubrics, agent-gebaseerde feitelijkheidsverificatie via actieve retrieval en redenering over zowel webbronnen als multimodale bijlagen, en procesgerichte evaluatie die auditert hoe het systeem doorzoekt, redeneert en verfijnt tijdens zijn onderzoek. Evaluatie van 13 systemen levert drie hoofdbevindingen op: de drie evaluatiedimensies vangen complementaire aspecten van systeemcapaciteit, waarbij elk verschillende sterke en zwakke punten per systeem onthult; proceskwaliteit dient als een betrouwbare voorspeller van het algehele resultaat en onthult tegelijkertijd zwaktes die onzichtbaar zijn voor outputmetrieken; en multimodale taken vormen aanzienlijk grotere uitdagingen, waarbij de meeste systemen met 3 tot 10 punten dalen. De MiroThinker-serie behaalt de meest gebalanceerde prestaties, met MiroThinker-H1 als algemeen hoogst gerangschikt in beide settings. Menselijke verificatie en robuustheidsresultaten bevestigen de betrouwbaarheid van de benchmark en het evaluatieraamwerk. MiroEval biedt een holistisch diagnostisch hulpmiddel voor de volgende generatie van diepe onderzoeksagenten.
English
Recent progress in deep research systems has been impressive, but evaluation still lags behind real user needs. Existing benchmarks predominantly assess final reports using fixed rubrics, failing to evaluate the underlying research process. Most also offer limited multimodal coverage, rely on synthetic tasks that do not reflect real-world query complexity, and cannot be refreshed as knowledge evolves. To address these gaps, we introduce MiroEval, a benchmark and evaluation framework for deep research systems. The benchmark comprises 100 tasks (70 text-only, 30 multimodal), all grounded in real user needs and constructed via a dual-path pipeline that supports periodic updates, enabling a live and evolving setting. The proposed evaluation suite assesses deep research systems along three complementary dimensions: adaptive synthesis quality evaluation with task-specific rubrics, agentic factuality verification via active retrieval and reasoning over both web sources and multimodal attachments, and process-centric evaluation audits how the system searches, reasons, and refines throughout its investigation. Evaluation across 13 systems yields three principal findings: the three evaluation dimensions capture complementary aspects of system capability, with each revealing distinct strengths and weaknesses across systems; process quality serves as a reliable predictor of overall outcome while revealing weaknesses invisible to output-level metrics; and multimodal tasks pose substantially greater challenges, with most systems declining by 3 to 10 points. The MiroThinker series achieves the most balanced performance, with MiroThinker-H1 ranking the highest overall in both settings. Human verification and robustness results confirm the reliability of the benchmark and evaluation framework. MiroEval provides a holistic diagnostic tool for the next generation of deep research agents.
PDF522April 3, 2026