ChatPaper.aiChatPaper

증거 연결: 인용 인식 루브릭 보상을 통한 심층 검색 에이전트의 강건한 강화 학습

Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

January 9, 2026
저자: Jiajie Zhang, Xin Lv, Ling Feng, Lei Hou, Juanzi Li
cs.AI

초록

강화학습(RL)은 LLM 기반 심층 검색 에이전트 성능 향상을 위한 핵심 기술로 부상했습니다. 그러나 기존 접근법은 주로 이분법적 결과 보상에 의존하여 에이전트의 추론 과정의 포괄성과 사실성을 제대로 반영하지 못하며, 단축 경로 활용과 허구적 생성 같은 바람직하지 않은 행동을 초래하는 경우가 많습니다. 이러한 한계를 해결하기 위해 우리는 추론의 포괄성, 사실적 근거, 증거 연결성에 중점을 둔 세분화된 보상 프레임워크인 CaRR(Citation-aware Rubric Rewards)을 제안합니다. CaRR은 복잡한 질문을 검증 가능한 단일 홉 루브릭으로 분해하고, 에이전트가 숨겨진 개체를 명시적으로 식별하고 올바른 인용으로 뒷받침하며, 예측된 답변과 연결되는 완전한 증거 사슬을 구성하여 이러한 루브릭을 충족하도록 요구합니다. 또한 우리는 CaRR과 결과 보상을 결합하여 강력한 심층 검색 에이전트를 훈련시키는 C-GRPO(Citation-aware Group Relative Policy Optimization)를 소개합니다. 실험 결과, C-GRPO은 여러 심층 검색 벤치마크에서 표준 결과 기반 RL 기준 모델을 지속적으로 능가하는 것으로 나타났습니다. 우리의 분석은 또한 C-GRPO가 단축 경로 활용을 효과적으로 억제하고, 포괄적이며 증거에 기반한 추론을 촉진하며, 개방형 심층 연구 작업으로의 강력한 일반화 능력을 보여준다는 것을 입증했습니다. 우리의 코드와 데이터는 https://github.com/THUDM/CaRR에서 확인할 수 있습니다.
English
Reinforcement learning (RL) has emerged as a critical technique for enhancing LLM-based deep search agents. However, existing approaches primarily rely on binary outcome rewards, which fail to capture the comprehensiveness and factuality of agents' reasoning process, and often lead to undesirable behaviors such as shortcut exploitation and hallucinations. To address these limitations, we propose Citation-aware Rubric Rewards (CaRR), a fine-grained reward framework for deep search agents that emphasizes reasoning comprehensiveness, factual grounding, and evidence connectivity. CaRR decomposes complex questions into verifiable single-hop rubrics and requires agents to satisfy these rubrics by explicitly identifying hidden entities, supporting them with correct citations, and constructing complete evidence chains that link to the predicted answer. We further introduce Citation-aware Group Relative Policy Optimization (C-GRPO), which combines CaRR and outcome rewards for training robust deep search agents. Experiments show that C-GRPO consistently outperforms standard outcome-based RL baselines across multiple deep search benchmarks. Our analysis also validates that C-GRPO effectively discourages shortcut exploitation, promotes comprehensive, evidence-grounded reasoning, and exhibits strong generalization to open-ended deep research tasks. Our code and data are available at https://github.com/THUDM/CaRR.
PDF301January 13, 2026