MiroEval: Бенчмаркинг многомодальных исследовательских агентов по процессу и результату
MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome
March 30, 2026
Авторы: Fangda Ye, Yuxin Hu, Pengxiang Zhu, Yibo Li, Ziqi Jin, Yao Xiao, Yibo Wang, Lei Wang, Zhen Zhang, Lu Wang, Yue Deng, Bin Wang, Yifan Zhang, Liangcai Su, Xinyu Wang, He Zhao, Chen Wei, Qiang Ren, Bryan Hooi, An Bo, Shuicheng Yan, Lidong Bing
cs.AI
Аннотация
Последние достижения в области систем глубокого исследования впечатляют, однако оценка их работы по-прежнему отстает от реальных потребностей пользователей. Существующие бенчмарки преимущественно оценивают итоговые отчеты по фиксированным критериям, не затрагивая лежащий в основе исследовательский процесс. Большинство из них также предлагают ограниченное мультимодальное покрытие, опираются на синтетические задачи, не отражающие сложность реальных запросов, и не могут обновляться по мере развития знаний. Для устранения этих пробелов мы представляем MiroEval — бенчмарк и框架 оценки для систем глубокого исследования. Бенчмарк включает 100 задач (70 текстовых и 30 мультимодальных), основанных на реальных потребностях пользователей и созданных по двухконтурной схеме, поддерживающей периодическое обновление, что обеспечивает динамичную и развивающуюся среду. Предлагаемый набор оценок анализирует системы глубокого исследования по трем взаимодополняющим направлениям: оценка качества адаптивного синтеза с помощью специфичных для задач критериев, проверка фактической точности агентов через активное извлечение и reasoning на основе веб-источников и мультимодальных вложений, а также процессно-ориентированный аудит, отслеживающий, как система осуществляет поиск, рассуждение и уточнение в ходе исследования. Оценка 13 систем выявила три ключевых результата: три направления оценки отражают взаимодополняющие аспекты возможностей системы, причем каждое выявляет различные сильные и слабые стороны across systems; качество процесса служит надежным предиктором общего результата, одновременно выявляя недостатки, невидимые на уровне выходных метрик; мультимодальные задачи представляют значительно более серьезные challenges, причем большинство систем демонстрируют снижение показателей на 3–10 пунктов. Серия MiroThinker демонстрирует наиболее сбалансированную производительность, а модель MiroThinker-H1 занимает наивысшую позицию в обоих сценариях. Результаты проверки человеком и тесты на устойчивость подтверждают надежность бенчмарка и框架 оценки. MiroEval предоставляет целостный диагностический инструмент для следующего поколения агентов глубокого исследования.
English
Recent progress in deep research systems has been impressive, but evaluation still lags behind real user needs. Existing benchmarks predominantly assess final reports using fixed rubrics, failing to evaluate the underlying research process. Most also offer limited multimodal coverage, rely on synthetic tasks that do not reflect real-world query complexity, and cannot be refreshed as knowledge evolves. To address these gaps, we introduce MiroEval, a benchmark and evaluation framework for deep research systems. The benchmark comprises 100 tasks (70 text-only, 30 multimodal), all grounded in real user needs and constructed via a dual-path pipeline that supports periodic updates, enabling a live and evolving setting. The proposed evaluation suite assesses deep research systems along three complementary dimensions: adaptive synthesis quality evaluation with task-specific rubrics, agentic factuality verification via active retrieval and reasoning over both web sources and multimodal attachments, and process-centric evaluation audits how the system searches, reasons, and refines throughout its investigation. Evaluation across 13 systems yields three principal findings: the three evaluation dimensions capture complementary aspects of system capability, with each revealing distinct strengths and weaknesses across systems; process quality serves as a reliable predictor of overall outcome while revealing weaknesses invisible to output-level metrics; and multimodal tasks pose substantially greater challenges, with most systems declining by 3 to 10 points. The MiroThinker series achieves the most balanced performance, with MiroThinker-H1 ranking the highest overall in both settings. Human verification and robustness results confirm the reliability of the benchmark and evaluation framework. MiroEval provides a holistic diagnostic tool for the next generation of deep research agents.