ChatPaper.aiChatPaper

深層研究レポート生成のための人間の選好に基づくクエリ特化ルーブリックの学習

Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation

February 3, 2026
著者: Changze Lv, Jie Zhou, Wentao Zhao, Jingwen Xu, Zisu Huang, Muzhao Tian, Shihan Dou, Tao Gui, Le Tian, Xiao Zhou, Xiaoqing Zheng, Xuanjing Huang, Jie Zhou
cs.AI

要旨

現在、DeepResearchによって生成されるレポートの学習と評価は、検証可能な報酬信号が不足しているため、依然として困難な課題である。このため、ルーブリックに基づく評価が一般的な手法となっている。しかし、既存のアプローチは、十分な細分化がなされていない大まかな事前定義ルーブリックに依存するか、あるいはコストがかかり拡張が困難な手動構築のクエリ特定ルーブリックに依存している。本論文では、DeepResearchのレポート生成に特化した、人間の選好に沿ったクエリ特定ルーブリック生成器を訓練するパイプラインを提案する。まず、人間によるレポートペアへの選好が注釈されたDeepResearch形式のクエリデータセットを構築し、人間の選好監督とLLMベースのルーブリック評価を組み合わせたハイブリッド報酬を用いた強化学習によりルーブリック生成器を訓練する。さらに、長期的な推論をより適切に扱うために、レポート生成のためのマルチエージェントマルコフ状態(MaMs)ワークフローを導入する。実験により、提案するルーブリック生成器が、既存のルーブリック設計戦略よりも識別力が高く、人間の選好により良く沿った監督を提供することを示す。さらに、MaMs訓練フレームワークに統合された場合、本ルーブリック生成器を備えたDeepResearchシステムは、DeepResearch Benchにおいて全てのオープンソースベースラインを一貫して上回り、主要なクローズドソースモデルに匹敵する性能を達成する。
English
Nowadays, training and evaluating DeepResearch-generated reports remain challenging due to the lack of verifiable reward signals. Accordingly, rubric-based evaluation has become a common practice. However, existing approaches either rely on coarse, pre-defined rubrics that lack sufficient granularity, or depend on manually constructed query-specific rubrics that are costly and difficult to scale. In this paper, we propose a pipeline to train human-preference-aligned query-specific rubric generators tailored for DeepResearch report generation. We first construct a dataset of DeepResearch-style queries annotated with human preferences over paired reports, and train rubric generators via reinforcement learning with a hybrid reward combining human preference supervision and LLM-based rubric evaluation. To better handle long-horizon reasoning, we further introduce a Multi-agent Markov-state (MaMs) workflow for report generation. We empirically show that our proposed rubric generators deliver more discriminative and better human-aligned supervision than existing rubric design strategies. Moreover, when integrated into the MaMs training framework, DeepResearch systems equipped with our rubric generators consistently outperform all open-source baselines on the DeepResearch Bench and achieve performance comparable to that of leading closed-source models.
PDF211February 5, 2026