ChatPaper.aiChatPaper

レポートを通じたDeepResearchの理解

Understanding DeepResearch via Reports

October 9, 2025
著者: Tianyu Fan, Xinyao Niu, Yuxiang Zheng, Fengji Zhang, Chengen Huang, Bei Chen, Junyang Lin, Chao Huang
cs.AI

要旨

DeepResearchエージェントは、高度な推論とマルチツール統合を通じて専門家レベルの研究を行う、革新的なAIパラダイムを体現しています。しかし、これらのシステムの評価は、オープンエンドな研究シナリオや、個別の能力に焦点を当てた既存のベンチマークのため、依然として重大な課題となっています。従来のLLMタスクとは異なり、DeepResearchシステムは多様な情報源を統合し、洞察を生成し、首尾一貫した研究成果を提示する必要があり、これらの能力は単純な検証に抵抗します。このギャップを埋めるため、私たちはDeepResearch-ReportEvalを導入しました。これは、DeepResearchシステムをその最も代表的なアウトプットである研究レポートを通じて評価する包括的なフレームワークです。私たちのアプローチは、品質、冗長性、事実性の3つの次元を体系的に測定し、革新的なLLM-as-a-Judge手法を用いて専門家の一致度を高めています。12の実世界のカテゴリーにまたがる100の精選されたクエリからなる標準化されたベンチマークを提供し、体系的な能力比較を可能にします。4つの主要な商用システムの評価を通じて、異なる設計哲学とパフォーマンスのトレードオフを明らかにし、DeepResearchが情報アシスタントからインテリジェントな研究パートナーへと進化する中で、基礎的な洞察を確立しました。ソースコードとデータは以下で公開されています:https://github.com/HKUDS/DeepResearch-Eval。
English
DeepResearch agents represent a transformative AI paradigm, conducting expert-level research through sophisticated reasoning and multi-tool integration. However, evaluating these systems remains critically challenging due to open-ended research scenarios and existing benchmarks that focus on isolated capabilities rather than holistic performance. Unlike traditional LLM tasks, DeepResearch systems must synthesize diverse sources, generate insights, and present coherent findings, which are capabilities that resist simple verification. To address this gap, we introduce DeepResearch-ReportEval, a comprehensive framework designed to assess DeepResearch systems through their most representative outputs: research reports. Our approach systematically measures three dimensions: quality, redundancy, and factuality, using an innovative LLM-as-a-Judge methodology achieving strong expert concordance. We contribute a standardized benchmark of 100 curated queries spanning 12 real-world categories, enabling systematic capability comparison. Our evaluation of four leading commercial systems reveals distinct design philosophies and performance trade-offs, establishing foundational insights as DeepResearch evolves from information assistants toward intelligent research partners. Source code and data are available at: https://github.com/HKUDS/DeepResearch-Eval.
PDF62October 13, 2025