Encadeando as Evidências: Aprendizagem por Reforço Robusta para Agentes de Busca Profunda com Recompensas Baseadas em Rubricas Conscientes de Citação

Resumo

O aprendizado por reforço (RL) emergiu como uma técnica crítica para aprimorar agentes de busca profunda baseados em LLM. No entanto, as abordagens existentes dependem principalmente de recompensas binárias de resultado, que não conseguem capturar a abrangência e a factualidade do processo de raciocínio dos agentes, e frequentemente levam a comportamentos indesejáveis, como exploração de atalhos e alucinações. Para enfrentar essas limitações, propomos o Citation-aware Rubric Rewards (CaRR), um framework de recompensa refinado para agentes de busca profunda que enfatiza a abrangência do raciocínio, o embasamento factual e a conectividade das evidências. O CaRR decompõe questões complexas em rubricas verificáveis de salto único e exige que os agentes satisfaçam essas rubricas identificando explicitamente entidades ocultas, apoiando-as com citações corretas e construindo cadeias completas de evidências que se conectam à resposta prevista. Introduzimos ainda o Citation-aware Group Relative Policy Optimization (C-GRPO), que combina o CaRR e recompensas de resultado para treinar agentes de busca profunda robustos. Experimentos mostram que o C-GRPO supera consistentemente as linhas de base padrão de RL baseadas em resultado em múltiplos benchmarks de busca profunda. Nossa análise também valida que o C-GRPO desencoraja efetivamente a exploração de atalhos, promove um raciocínio abrangente e fundamentado em evidências, e exibe forte generalização para tarefas abertas de pesquisa profunda. Nosso código e dados estão disponíveis em https://github.com/THUDM/CaRR.

English

Reinforcement learning (RL) has emerged as a critical technique for enhancing LLM-based deep search agents. However, existing approaches primarily rely on binary outcome rewards, which fail to capture the comprehensiveness and factuality of agents' reasoning process, and often lead to undesirable behaviors such as shortcut exploitation and hallucinations. To address these limitations, we propose Citation-aware Rubric Rewards (CaRR), a fine-grained reward framework for deep search agents that emphasizes reasoning comprehensiveness, factual grounding, and evidence connectivity. CaRR decomposes complex questions into verifiable single-hop rubrics and requires agents to satisfy these rubrics by explicitly identifying hidden entities, supporting them with correct citations, and constructing complete evidence chains that link to the predicted answer. We further introduce Citation-aware Group Relative Policy Optimization (C-GRPO), which combines CaRR and outcome rewards for training robust deep search agents. Experiments show that C-GRPO consistently outperforms standard outcome-based RL baselines across multiple deep search benchmarks. Our analysis also validates that C-GRPO effectively discourages shortcut exploitation, promotes comprehensive, evidence-grounded reasoning, and exhibits strong generalization to open-ended deep research tasks. Our code and data are available at https://github.com/THUDM/CaRR.

Encadeando as Evidências: Aprendizagem por Reforço Robusta para Agentes de Busca Profunda com Recompensas Baseadas em Rubricas Conscientes de Citação

Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

Resumo

Support