ChatPaper.aiChatPaper

Verkettung der Evidenz: Robustes Reinforcement Learning für tiefe Suchagenten mit zitierbewussten Rubrik-Belohnungen

Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

January 9, 2026
papers.authors: Jiajie Zhang, Xin Lv, Ling Feng, Lei Hou, Juanzi Li
cs.AI

papers.abstract

Reinforcement Learning (RL) hat sich als entscheidende Technik zur Verbesserung von LLM-basierten Deep-Search-Agenten erwiesen. Bestehende Ansätze stützen sich jedoch hauptsächlich auf Belohnungen basierend auf binären Ergebnissen, die weder die Vollständigkeit noch die Faktizität des Reasoning-Prozesses der Agenten erfassen und oft zu unerwünschtem Verhalten wie der Ausnutzung von Abkürzungen und Halluzinationen führen. Um diese Einschränkungen zu adressieren, schlagen wir Citation-aware Rubric Rewards (CaRR) vor, ein feinkörniges Belohnungsframework für Deep-Search-Agenten, das die Vollständigkeit der Argumentation, faktische Fundierung und Evidenzverknüpfung betont. CaRR zerlegt komplexe Fragen in überprüfbare Single-Hop-Bewertungskriterien und verlangt von Agenten, diese Kriterien zu erfüllen, indem sie verborgene Entitäten explizit identifizieren, diese mit korrekten Zitaten belegen und vollständige Evidenzketten aufbauen, die zur vorhergesagten Antwort führen. Wir führen zudem Citation-aware Group Relative Policy Optimization (C-GRPO) ein, das CaRR mit Ergebnisfeedback kombiniert, um robuste Deep-Search-Agenten zu trainieren. Experimente zeigen, dass C-GRPO durchgängig Standard-RL-Baselines, die auf Ergebnissen basieren, in mehreren Deep-Search-Benchmarks übertrifft. Unsere Analyse bestätigt ebenfalls, dass C-GRPO die Ausnutzung von Abkürzungen wirksam unterbindet, umfassendes, evidenzbasiertes Reasoning fördert und eine starke Generalisierungsfähigkeit für offene Deep-Research-Aufgaben aufweist. Unser Code und unsere Daten sind unter https://github.com/THUDM/CaRR verfügbar.
English
Reinforcement learning (RL) has emerged as a critical technique for enhancing LLM-based deep search agents. However, existing approaches primarily rely on binary outcome rewards, which fail to capture the comprehensiveness and factuality of agents' reasoning process, and often lead to undesirable behaviors such as shortcut exploitation and hallucinations. To address these limitations, we propose Citation-aware Rubric Rewards (CaRR), a fine-grained reward framework for deep search agents that emphasizes reasoning comprehensiveness, factual grounding, and evidence connectivity. CaRR decomposes complex questions into verifiable single-hop rubrics and requires agents to satisfy these rubrics by explicitly identifying hidden entities, supporting them with correct citations, and constructing complete evidence chains that link to the predicted answer. We further introduce Citation-aware Group Relative Policy Optimization (C-GRPO), which combines CaRR and outcome rewards for training robust deep search agents. Experiments show that C-GRPO consistently outperforms standard outcome-based RL baselines across multiple deep search benchmarks. Our analysis also validates that C-GRPO effectively discourages shortcut exploitation, promotes comprehensive, evidence-grounded reasoning, and exhibits strong generalization to open-ended deep research tasks. Our code and data are available at https://github.com/THUDM/CaRR.
PDF301January 13, 2026