ChatPaper.aiChatPaper

RubricEM: 検証可能な報酬を超えるルーブリック誘導型方策分解によるメタ強化学習

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

May 11, 2026
著者: Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister
cs.AI

要旨

ディープリサーチエージェント──すなわち、計画、検索、証拠評価、長文レポートの統合を行うシステム──の訓練は、強化学習を検証可能な報酬の枠組みを超えた領域へと押し進める。それらの出力には正解が存在せず、軌跡は多数のツール拡張による意思決定にまたがり、標準的なポストトレーニングでは過去の試行を再利用可能な経験に変換するメカニズムがほとんど提供されない。本稿では、ルーブリックは最終回答の評価器としてだけでなく、ポリシー実行、評価者フィードバック、エージェントメモリを構造化する共有インターフェースとして機能すべきであると主張する。この見解に基づき、我々はルーブリック誘導型強化学習フレームワークであるRubricEMを提案する。RubricEMは、段階的なポリシー分解と振り返りベースのメタポリシー進化を組み合わせる。まず、自己生成ルーブリックに基づいて計画、証拠収集、レビュー、統合を条件付けることで、研究軌跡を段階認識可能にする。次に、Stage-Structured GRPOを用いて信用割り当てを行い、段階的ルーブリック判定によって長期視野の最適化に向けたより密な意味的フィードバックを提供する。並行して、共有バックボーンの振り返りメタポリシーを訓練し、判定された軌跡を将来の試行で再利用可能なルーブリックに基づくガイダンスに蒸留する。その結果、RubricEM-8Bは4つの長文研究ベンチマークにおいて優れた性能を達成し、同等のオープンモデルを凌駕し、プロプライエタリなディープリサーチシステムに迫る。最終性能に加えて、RubricEMの主要な構成要素を理解するための徹底的な分析も行う。
English
Training deep research agents, namely systems that plan, search, evaluate evidence, and synthesize long-form reports, pushes reinforcement learning beyond the regime of verifiable rewards. Their outputs lack ground-truth answers, their trajectories span many tool-augmented decisions, and standard post-training offers little mechanism for turning past attempts into reusable experience. In this work, we argue that rubrics should serve not merely as final-answer evaluators, but as the shared interface that structures policy execution, judge feedback, and agent memory. Based on this view, we introduce RubricEM, a rubric-guided reinforcement learning framework that combines stagewise policy decomposition with reflection-based meta-policy evolution. RubricEM first makes research trajectories stage-aware by conditioning planning, evidence gathering, review, and synthesis on self-generated rubrics. It then assigns credit with Stage-Structured GRPO, which uses stagewise rubric judgments to provide denser semantic feedback for long-horizon optimization. In parallel, RubricEM trains a shared-backbone reflection meta-policy that distills judged trajectories into reusable rubric-grounded guidance for future attempts. The resulting RubricEM-8B achieves strong performance across four long-form research benchmarks, outperforming comparable open models and approaching proprietary deep-research systems. Beyond final performance, we perform thorough analyses to understand the key ingredients of RubricEM.
PDF661May 14, 2026