ChatPaper.aiChatPaper

パーソナライズド・ディープリサーチに向けて:ベンチマークと評価

Towards Personalized Deep Research: Benchmarks and Evaluations

September 29, 2025
著者: Yuan Liang, Jiaxian Li, Yuqing Wang, Piaohong Wang, Motong Tian, Pai Liu, Shuofei Qiao, Runnan Fang, He Zhu, Ge Zhang, Minghao Liu, Yuchen Eleanor Jiang, Ningyu Zhang, Wangchunshu Zhou
cs.AI

要旨

ディープリサーチエージェント(DRA)は、複雑な調査を自律的に実施し、包括的なレポートを生成することが可能で、現実世界での強力なポテンシャルを示しています。しかし、既存の評価は主にクローズドエンドのベンチマークに依存しており、オープンエンドのディープリサーチベンチマークは依然として少なく、通常はパーソナライズされたシナリオを無視しています。このギャップを埋めるため、我々はパーソナライズドディープリサーチベンチを導入します。これは、DRAにおけるパーソナライゼーションを評価する最初のベンチマークです。このベンチマークは、10のドメインにわたる50の多様なリサーチタスクを、構造化されたペルソナ属性と動的な現実世界のコンテキストを組み合わせた25の本物のユーザープロファイルとペアリングし、250の現実的なユーザーとタスクのクエリを生成します。システムのパフォーマンスを評価するために、我々はPQR評価フレームワークを提案します。これは、(P) パーソナライゼーションの整合性、(Q) コンテンツの品質、(R) 事実の信頼性を同時に測定します。さまざまなシステムでの実験を通じて、パーソナライズドディープリサーチを扱う際の現在の能力と限界が明らかになりました。この研究は、真にパーソナライズされた次世代のAIリサーチアシスタントを開発し評価するための厳密な基盤を確立します。
English
Deep Research Agents (DRAs) can autonomously conduct complex investigations and generate comprehensive reports, demonstrating strong real-world potential. However, existing evaluations mostly rely on close-ended benchmarks, while open-ended deep research benchmarks remain scarce and typically neglect personalized scenarios. To bridge this gap, we introduce Personalized Deep Research Bench, the first benchmark for evaluating personalization in DRAs. It pairs 50 diverse research tasks across 10 domains with 25 authentic user profiles that combine structured persona attributes with dynamic real-world contexts, yielding 250 realistic user-task queries. To assess system performance, we propose the PQR Evaluation Framework, which jointly measures (P) Personalization Alignment, (Q) Content Quality, and (R) Factual Reliability. Our experiments on a range of systems highlight current capabilities and limitations in handling personalized deep research. This work establishes a rigorous foundation for developing and evaluating the next generation of truly personalized AI research assistants.
PDF211September 30, 2025