ChatPaper.aiChatPaper

Строгий бенчмарк с многомерной оценкой для глубокого исследования агентов: от ответов к отчетам

A Rigorous Benchmark with Multidimensional Evaluation for Deep Research Agents: From Answers to Reports

October 2, 2025
Авторы: Yang Yao, Yixu Wang, Yuxuan Zhang, Yi Lu, Tianle Gu, Lingyu Li, Dingyi Zhao, Keming Wu, Haozhe Wang, Ping Nie, Yan Teng, Yingchun Wang
cs.AI

Аннотация

Искусственный интеллект переживает смену парадигмы: от закрытых языковых моделей к взаимосвязанным агентным системам, способным к внешнему восприятию и интеграции информации. В качестве репрезентативного примера, Агенты Глубокого Исследования (Deep Research Agents, DRAs) систематически демонстрируют способности к декомпозиции задач, кросс-источниковому поиску, многоэтапному рассуждению и структурированному выводу, что значительно повышает производительность на сложных и открытых задачах. Однако существующие бенчмарки остаются недостаточными в плане оценочных измерений, форматирования ответов и механизмов оценки, что ограничивает их способность эффективно оценивать такие системы. В данной статье представлен строгий бенчмарк и многомерная оценочная система, адаптированные для DRAs и отчетов в стиле аналитических материалов. Бенчмарк включает 214 экспертно отобранных сложных запросов, распределенных по 10 широким тематическим областям, каждый из которых сопровождается вручную созданными эталонными наборами для поддержки комплексной оценки. Система позволяет проводить всестороннюю оценку объемных отчетов, генерируемых DRAs, включая интегрированные метрики оценки семантического качества, тематической направленности и достоверности поиска. Обширные эксперименты подтверждают превосходство основных DRAs над моделями рассуждения, усиленными инструментами веб-поиска, но также выявляют значительный потенциал для дальнейшего улучшения. Это исследование закладывает прочную основу для оценки возможностей, архитектурного совершенствования и развития парадигмы в системах DRAs.
English
Artificial intelligence is undergoing the paradigm shift from closed language models to interconnected agent systems capable of external perception and information integration. As a representative embodiment, Deep Research Agents (DRAs) systematically exhibit the capabilities for task decomposition, cross-source retrieval, multi-stage reasoning, and structured output, which markedly enhance performance on complex and open-ended tasks. However, existing benchmarks remain deficient in evaluation dimensions, response formatting, and scoring mechanisms, limiting their capacity to assess such systems effectively. This paper introduces a rigorous benchmark and a multidimensional evaluation framework tailored to DRAs and report-style responses. The benchmark comprises 214 expert-curated challenging queries distributed across 10 broad thematic domains, each accompanied by manually constructed reference bundles to support composite evaluation. The framework enables comprehensive evaluation of long-form reports generated by DRAs, incorporating integrated scoring metrics for semantic quality, topical focus, and retrieval trustworthiness. Extensive experimentation confirms the superior performance of mainstream DRAs over web-search-tool-augmented reasoning models, yet reveals considerable scope for further improvement. This study provides a robust foundation for capability assessment, architectural refinement, and paradigm advancement in DRA systems.
PDF182October 3, 2025