MiroEval: Benchmarking di Agenti di Ricerca Multimodali Avanzati nei Processi e nei Risultati
MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome
March 30, 2026
Autori: Fangda Ye, Yuxin Hu, Pengxiang Zhu, Yibo Li, Ziqi Jin, Yao Xiao, Yibo Wang, Lei Wang, Zhen Zhang, Lu Wang, Yue Deng, Bin Wang, Yifan Zhang, Liangcai Su, Xinyu Wang, He Zhao, Chen Wei, Qiang Ren, Bryan Hooi, An Bo, Shuicheng Yan, Lidong Bing
cs.AI
Abstract
I recenti progressi nei sistemi di ricerca approfondita sono stati impressionanti, ma la valutazione è ancora in ritardo rispetto alle reali esigenze degli utenti. I benchmark esistenti valutano prevalentemente i rapporti finali utilizzando griglie fisse, non riuscendo a valutare il processo di ricerca sottostante. La maggior parte offre anche una copertura multimodale limitata, si affida a compiti sintetici che non riflettono la complessità delle query del mondo reale e non può essere aggiornata con l'evolversi della conoscenza. Per colmare queste lacune, introduciamo MiroEval, un benchmark e un framework di valutazione per i sistemi di ricerca approfondita. Il benchmark comprende 100 compiti (70 solo testo, 30 multimodali), tutti basati su reali esigenze degli utenti e costruiti tramite una pipeline a doppio percorso che supporta aggiornamenti periodici, consentendo un ambiente dinamico ed evolutivo. La suite di valutazione proposta valuta i sistemi di ricerca approfondita lungo tre dimensioni complementari: valutazione della qualità della sintesi adattiva con griglie specifiche per compito, verifica della fattualità agentiva tramite retrieval attivo e ragionamento su fonti web e allegati multimodali, e valutazione centrata sul processo che analizza come il sistema cerca, ragiona e affina la propria indagine. La valutazione di 13 sistemi restituisce tre risultati principali: le tre dimensioni di valutazione catturano aspetti complementari delle capacità del sistema, ciascuna rivelando punti di forza e debolezza distinti tra i sistemi; la qualità del processo funge da indicatore affidabile del risultato complessivo, rivelando al contempo punti deboli invisibili alle metriche a livello di output; e i compiti multimodali pongono sfide sostanzialmente maggiori, con la maggior parte dei sistemi che registra un calo di 3-10 punti. La serie MiroThinker ottiene le prestazioni più bilanciate, con MiroThinker-H1 che si classifica al primo posto in generale in entrambe le configurazioni. I risultati della verifica umana e della robustezza confermano l'affidabilità del benchmark e del framework di valutazione. MiroEval fornisce uno strumento diagnostico olistico per la prossima generazione di agenti di ricerca approfondita.
English
Recent progress in deep research systems has been impressive, but evaluation still lags behind real user needs. Existing benchmarks predominantly assess final reports using fixed rubrics, failing to evaluate the underlying research process. Most also offer limited multimodal coverage, rely on synthetic tasks that do not reflect real-world query complexity, and cannot be refreshed as knowledge evolves. To address these gaps, we introduce MiroEval, a benchmark and evaluation framework for deep research systems. The benchmark comprises 100 tasks (70 text-only, 30 multimodal), all grounded in real user needs and constructed via a dual-path pipeline that supports periodic updates, enabling a live and evolving setting. The proposed evaluation suite assesses deep research systems along three complementary dimensions: adaptive synthesis quality evaluation with task-specific rubrics, agentic factuality verification via active retrieval and reasoning over both web sources and multimodal attachments, and process-centric evaluation audits how the system searches, reasons, and refines throughout its investigation. Evaluation across 13 systems yields three principal findings: the three evaluation dimensions capture complementary aspects of system capability, with each revealing distinct strengths and weaknesses across systems; process quality serves as a reliable predictor of overall outcome while revealing weaknesses invisible to output-level metrics; and multimodal tasks pose substantially greater challenges, with most systems declining by 3 to 10 points. The MiroThinker series achieves the most balanced performance, with MiroThinker-H1 ranking the highest overall in both settings. Human verification and robustness results confirm the reliability of the benchmark and evaluation framework. MiroEval provides a holistic diagnostic tool for the next generation of deep research agents.