研究評価基準:深層研究エージェント評価のためのプロンプトと評価基準ベンチマーク
ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents
November 10, 2025
著者: Manasi Sharma, Chen Bo Calvin Zhang, Chaithanya Bandi, Clinton Wang, Ankit Aich, Huy Nghiem, Tahseen Rabbani, Ye Htet, Brian Jang, Sumana Basu, Aishwarya Balwani, Denis Peskoff, Marcos Ayestaran, Sean M. Hendryx, Brad Kenstler, Bing Liu
cs.AI
要旨
Deep Research(DR)は、大規模言語モデル(LLM)を活用して未解決の質問に対処する新興のエージェントアプリケーションである。これには、多段階推論、文書横断的な統合、証拠に基づく長文回答の生成など、複数の能力の統合が要求される。DRの評価は、回答が長文かつ多様で、多くの有効な解決策が存在し、動的な情報源に依存することが多いため、依然として困難な課題である。本研究では、2,800時間以上に及ぶ人的労力をかけて構築されたDR向け標準化ベンチマーク「ResearchRubrics」を紹介する。これは、現実的で分野多様なプロンプトと、事実の裏付け、推論の健全性、明瞭さを評価するための2,500以上に及ぶ専門家執筆の詳細な評価ルーブリックを組み合わせたものである。さらに、DRタスクを概念的広がり、論理的入れ子構造、探索性の3軸に沿って分類する新しい複雑性フレームワークを提案する。加えて、DRエージェントのルーブリック遵守度を測定する、人間およびモデルベースの評価プロトコルを開発する。いくつかの最先端DRシステムを評価した結果、GeminiのDRやOpenAIのDRのような主要エージェントでさえ、暗黙のコンテキストの見落としや検索情報への不適切な推論が主因で、当ルーブリックへの平均遵守率が68%未満であることが判明した。この結果は、深層研究能力に対する頑健でスケーラブルな評価の必要性を浮き彫りにしており、我々は確かな根拠に基づく研究アシスタントの開発進展を促進するため、ResearchRubrics(全プロンプト、ルーブリック、評価コードを含む)を公開する。
English
Deep Research (DR) is an emerging agent application that leverages large language models (LLMs) to address open-ended queries. It requires the integration of several capabilities, including multi-step reasoning, cross-document synthesis, and the generation of evidence-backed, long-form answers. Evaluating DR remains challenging because responses are lengthy and diverse, admit many valid solutions, and often depend on dynamic information sources. We introduce ResearchRubrics, a standardized benchmark for DR built with over 2,800+ hours of human labor that pairs realistic, domain-diverse prompts with 2,500+ expert-written, fine-grained rubrics to assess factual grounding, reasoning soundness, and clarity. We also propose a new complexity framework for categorizing DR tasks along three axes: conceptual breadth, logical nesting, and exploration. In addition, we develop human and model-based evaluation protocols that measure rubric adherence for DR agents. We evaluate several state-of-the-art DR systems and find that even leading agents like Gemini's DR and OpenAI's DR achieve under 68% average compliance with our rubrics, primarily due to missed implicit context and inadequate reasoning about retrieved information. Our results highlight the need for robust, scalable assessment of deep research capabilities, to which end we release ResearchRubrics(including all prompts, rubrics, and evaluation code) to facilitate progress toward well-justified research assistants.