ChatPaper.aiChatPaper

証拠の連鎖:引用認識型ルーブリック報酬による深層検索エージェントのための強固な強化学習

Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

January 9, 2026
著者: Jiajie Zhang, Xin Lv, Ling Feng, Lei Hou, Juanzi Li
cs.AI

要旨

強化学習(RL)は、LLMベースの深層検索エージェントを強化する重要な技術として登場しました。しかし、既存のアプローチは主に二値的な結果報酬に依存しており、エージェントの推論プロセスの包括性や事実性を捉えられず、近道探索や虚構生成といった望ましくない行動を引き起こすことが多いです。これらの課題を解決するため、我々は推論の包括性、事実的根拠、証拠の連結性を重視した細粒度報酬フレームワーク「Citation-aware Rubric Rewards(CaRR)」を提案します。CaRRは複雑な質問を検証可能な単一ホップのルーブリックに分解し、エージェントが隠れた実体を明示的に特定し、正しい引用で支持し、予測された回答へ連結する完全な証拠連鎖を構築することでこれらのルーブリックを満たすことを要求します。さらに、CaRRと結果報酬を組み合わせて頑健な深層検索エージェントを訓練する「Citation-aware Group Relative Policy Optimization(C-GRPO)」を導入します。実験により、C-GRPOが複数の深層検索ベンチマークにおいて標準的な結果ベースのRLベースラインを一貫して上回ることを示します。分析により、C-GRPOが近道探索を効果的に抑制し、包括的で証拠に基づく推論を促進し、オープンエンドの深層研究タスクへの強い一般化性を示すことも検証されました。コードとデータはhttps://github.com/THUDM/CaRRで公開しています。
English
Reinforcement learning (RL) has emerged as a critical technique for enhancing LLM-based deep search agents. However, existing approaches primarily rely on binary outcome rewards, which fail to capture the comprehensiveness and factuality of agents' reasoning process, and often lead to undesirable behaviors such as shortcut exploitation and hallucinations. To address these limitations, we propose Citation-aware Rubric Rewards (CaRR), a fine-grained reward framework for deep search agents that emphasizes reasoning comprehensiveness, factual grounding, and evidence connectivity. CaRR decomposes complex questions into verifiable single-hop rubrics and requires agents to satisfy these rubrics by explicitly identifying hidden entities, supporting them with correct citations, and constructing complete evidence chains that link to the predicted answer. We further introduce Citation-aware Group Relative Policy Optimization (C-GRPO), which combines CaRR and outcome rewards for training robust deep search agents. Experiments show that C-GRPO consistently outperforms standard outcome-based RL baselines across multiple deep search benchmarks. Our analysis also validates that C-GRPO effectively discourages shortcut exploitation, promotes comprehensive, evidence-grounded reasoning, and exhibits strong generalization to open-ended deep research tasks. Our code and data are available at https://github.com/THUDM/CaRR.
PDF301January 13, 2026