ChatPaper.aiChatPaper

Enchaîner les preuves : Apprentissage par renforcement robuste pour agents de recherche approfondie avec récompenses basées sur une grille d'évaluation sensible aux citations

Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

January 9, 2026
papers.authors: Jiajie Zhang, Xin Lv, Ling Feng, Lei Hou, Juanzi Li
cs.AI

papers.abstract

L'apprentissage par renforcement (RL) est devenu une technique essentielle pour améliorer les agents de recherche approfondie basés sur les LLM. Cependant, les approches existantes reposent principalement sur des récompenses binaires basées sur le résultat, qui ne parviennent pas à capturer l'exhaustivité et la factualité du processus de raisonnement des agents, et conduisent souvent à des comportements indésirables tels que l'exploitation de raccourcis et les hallucinations. Pour remédier à ces limitations, nous proposons Citation-aware Rubric Rewards (CaRR), un cadre de récompenses à granularité fine pour les agents de recherche approfondie qui met l'accent sur l'exhaustivité du raisonnement, l'ancrage factuel et la connectivité des preuves. CaRR décompose les questions complexes en rubriques vérifiables à saut unique et exige que les agents satisfassent ces rubriques en identifiant explicitement les entités cachées, en les étayant avec des citations correctes et en construisant des chaînes de preuves complètes liées à la réponse prédite. Nous introduisons également Citation-aware Group Relative Policy Optimization (C-GRPO), qui combine CaRR et les récompenses basées sur le résultat pour entraîner des agents de recherche approfondie robustes. Les expériences montrent que C-GRPO surpasse constamment les méthodes de référence RL standard basées sur le résultat sur plusieurs benchmarks de recherche approfondie. Notre analyse valide également que C-GRPO décourage efficacement l'exploitation de raccourcis, favorise un raisonnement exhaustif et fondé sur des preuves, et présente une forte généralisation aux tâches de recherche approfondie ouvertes. Notre code et nos données sont disponibles à l'adresse https://github.com/THUDM/CaRR.
English
Reinforcement learning (RL) has emerged as a critical technique for enhancing LLM-based deep search agents. However, existing approaches primarily rely on binary outcome rewards, which fail to capture the comprehensiveness and factuality of agents' reasoning process, and often lead to undesirable behaviors such as shortcut exploitation and hallucinations. To address these limitations, we propose Citation-aware Rubric Rewards (CaRR), a fine-grained reward framework for deep search agents that emphasizes reasoning comprehensiveness, factual grounding, and evidence connectivity. CaRR decomposes complex questions into verifiable single-hop rubrics and requires agents to satisfy these rubrics by explicitly identifying hidden entities, supporting them with correct citations, and constructing complete evidence chains that link to the predicted answer. We further introduce Citation-aware Group Relative Policy Optimization (C-GRPO), which combines CaRR and outcome rewards for training robust deep search agents. Experiments show that C-GRPO consistently outperforms standard outcome-based RL baselines across multiple deep search benchmarks. Our analysis also validates that C-GRPO effectively discourages shortcut exploitation, promotes comprehensive, evidence-grounded reasoning, and exhibits strong generalization to open-ended deep research tasks. Our code and data are available at https://github.com/THUDM/CaRR.
PDF301January 13, 2026