レポートを通じたDeepResearchの理解
Understanding DeepResearch via Reports
October 9, 2025
著者: Tianyu Fan, Xinyao Niu, Yuxiang Zheng, Fengji Zhang, Chengen Huang, Bei Chen, Junyang Lin, Chao Huang
cs.AI
要旨
DeepResearchエージェントは、高度な推論とマルチツール統合を通じて専門家レベルの研究を行う、革新的なAIパラダイムを体現しています。しかし、これらのシステムの評価は、オープンエンドな研究シナリオや、個別の能力に焦点を当てた既存のベンチマークのため、依然として重大な課題となっています。従来のLLMタスクとは異なり、DeepResearchシステムは多様な情報源を統合し、洞察を生成し、首尾一貫した研究成果を提示する必要があり、これらの能力は単純な検証に抵抗します。このギャップを埋めるため、私たちはDeepResearch-ReportEvalを導入しました。これは、DeepResearchシステムをその最も代表的なアウトプットである研究レポートを通じて評価する包括的なフレームワークです。私たちのアプローチは、品質、冗長性、事実性の3つの次元を体系的に測定し、革新的なLLM-as-a-Judge手法を用いて専門家の一致度を高めています。12の実世界のカテゴリーにまたがる100の精選されたクエリからなる標準化されたベンチマークを提供し、体系的な能力比較を可能にします。4つの主要な商用システムの評価を通じて、異なる設計哲学とパフォーマンスのトレードオフを明らかにし、DeepResearchが情報アシスタントからインテリジェントな研究パートナーへと進化する中で、基礎的な洞察を確立しました。ソースコードとデータは以下で公開されています:https://github.com/HKUDS/DeepResearch-Eval。
English
DeepResearch agents represent a transformative AI paradigm, conducting
expert-level research through sophisticated reasoning and multi-tool
integration. However, evaluating these systems remains critically challenging
due to open-ended research scenarios and existing benchmarks that focus on
isolated capabilities rather than holistic performance. Unlike traditional LLM
tasks, DeepResearch systems must synthesize diverse sources, generate insights,
and present coherent findings, which are capabilities that resist simple
verification. To address this gap, we introduce DeepResearch-ReportEval, a
comprehensive framework designed to assess DeepResearch systems through their
most representative outputs: research reports. Our approach systematically
measures three dimensions: quality, redundancy, and factuality, using an
innovative LLM-as-a-Judge methodology achieving strong expert concordance. We
contribute a standardized benchmark of 100 curated queries spanning 12
real-world categories, enabling systematic capability comparison. Our
evaluation of four leading commercial systems reveals distinct design
philosophies and performance trade-offs, establishing foundational insights as
DeepResearch evolves from information assistants toward intelligent research
partners. Source code and data are available at:
https://github.com/HKUDS/DeepResearch-Eval.