ChatPaper.aiChatPaper

深層研究エージェントのための多次元評価を伴う厳密なベンチマーク:回答からレポートへ

A Rigorous Benchmark with Multidimensional Evaluation for Deep Research Agents: From Answers to Reports

October 2, 2025
著者: Yang Yao, Yixu Wang, Yuxuan Zhang, Yi Lu, Tianle Gu, Lingyu Li, Dingyi Zhao, Keming Wu, Haozhe Wang, Ping Nie, Yan Teng, Yingchun Wang
cs.AI

要旨

人工知能は、閉じた言語モデルから外部知覚と情報統合が可能な相互接続されたエージェントシステムへとパラダイムシフトを遂げつつある。その代表的な具現化として、Deep Research Agents(DRAs)は、タスク分解、クロスソース検索、多段階推論、構造化出力といった能力を体系的に示し、複雑で開放的なタスクにおけるパフォーマンスを著しく向上させている。しかし、既存のベンチマークは評価次元、応答形式、スコアリングメカニズムにおいて不十分であり、こうしたシステムを効果的に評価する能力が制限されている。本論文では、DRAsとレポート形式の応答に特化した厳密なベンチマークと多次元評価フレームワークを提案する。このベンチマークは、10の広範なテーマ領域にわたる214の専門家による精選された難問から構成され、各問いには複合評価を支援する手動構築の参照バンドルが付随する。このフレームワークは、DRAsによって生成された長文レポートを包括的に評価し、意味的品質、トピック焦点、検索信頼性を統合したスコアリングメトリクスを組み込んでいる。大規模な実験により、主流のDRAsがウェブ検索ツールを補助した推論モデルを凌駕する性能を示すことが確認された一方で、さらなる改善の余地が大きいことも明らかになった。本研究は、DRAシステムの能力評価、アーキテクチャの洗練、パラダイムの進展に向けた堅固な基盤を提供するものである。
English
Artificial intelligence is undergoing the paradigm shift from closed language models to interconnected agent systems capable of external perception and information integration. As a representative embodiment, Deep Research Agents (DRAs) systematically exhibit the capabilities for task decomposition, cross-source retrieval, multi-stage reasoning, and structured output, which markedly enhance performance on complex and open-ended tasks. However, existing benchmarks remain deficient in evaluation dimensions, response formatting, and scoring mechanisms, limiting their capacity to assess such systems effectively. This paper introduces a rigorous benchmark and a multidimensional evaluation framework tailored to DRAs and report-style responses. The benchmark comprises 214 expert-curated challenging queries distributed across 10 broad thematic domains, each accompanied by manually constructed reference bundles to support composite evaluation. The framework enables comprehensive evaluation of long-form reports generated by DRAs, incorporating integrated scoring metrics for semantic quality, topical focus, and retrieval trustworthiness. Extensive experimentation confirms the superior performance of mainstream DRAs over web-search-tool-augmented reasoning models, yet reveals considerable scope for further improvement. This study provides a robust foundation for capability assessment, architectural refinement, and paradigm advancement in DRA systems.
PDF182October 3, 2025