ChatPaper.aiChatPaper

Цепочка доказательств: устойчивое обучение с подкреплением для агентов глубинного поиска с рубричными вознаграждениями, учитывающими цитирование

Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

January 9, 2026
Авторы: Jiajie Zhang, Xin Lv, Ling Feng, Lei Hou, Juanzi Li
cs.AI

Аннотация

Обучение с подкреплением (RL) стало ключевой методикой для повышения эффективности агентов глубокого поиска на основе больших языковых моделей (LLM). Однако существующие подходы в основном опираются на бинарные вознаграждения по результату, которые не отражают полноту и фактическую обоснованность процесса рассуждений агентов и часто приводят к нежелательному поведению, такому как использование кратчайших путей и галлюцинации. Для устранения этих ограничений мы предлагаем Citation-aware Rubric Rewards (CaRR) — детализированную систему вознаграждений для агентов глубокого поиска, которая делает акцент на полноте рассуждений, фактическом обосновании и связности доказательств. CaRR декомпозирует сложные вопросы на проверяемые одношаговые рубрики и требует от агентов удовлетворения этим рубрикам путем явного выявления скрытых сущностей, их поддержки корректными цитированиями и построения полных цепочек доказательств, связанных с прогнозируемым ответом. Мы также представляем Citation-aware Group Relative Policy Optimization (C-GRPO), который объединяет CaRR и вознаграждения по результату для обучения надежных агентов глубокого поиска. Эксперименты показывают, что C-GRPO последовательно превосходит стандартные базовые методы RL, основанные на результате, в различных тестах глубокого поиска. Наш анализ также подтверждает, что C-GRPO эффективно препятствует использованию кратчайших путей, способствует всесторонним, обоснованным доказательствами рассуждениям и демонстрирует сильную обобщающую способность для открытых задач глубокого исследования. Наш код и данные доступны по адресу https://github.com/THUDM/CaRR.
English
Reinforcement learning (RL) has emerged as a critical technique for enhancing LLM-based deep search agents. However, existing approaches primarily rely on binary outcome rewards, which fail to capture the comprehensiveness and factuality of agents' reasoning process, and often lead to undesirable behaviors such as shortcut exploitation and hallucinations. To address these limitations, we propose Citation-aware Rubric Rewards (CaRR), a fine-grained reward framework for deep search agents that emphasizes reasoning comprehensiveness, factual grounding, and evidence connectivity. CaRR decomposes complex questions into verifiable single-hop rubrics and requires agents to satisfy these rubrics by explicitly identifying hidden entities, supporting them with correct citations, and constructing complete evidence chains that link to the predicted answer. We further introduce Citation-aware Group Relative Policy Optimization (C-GRPO), which combines CaRR and outcome rewards for training robust deep search agents. Experiments show that C-GRPO consistently outperforms standard outcome-based RL baselines across multiple deep search benchmarks. Our analysis also validates that C-GRPO effectively discourages shortcut exploitation, promotes comprehensive, evidence-grounded reasoning, and exhibits strong generalization to open-ended deep research tasks. Our code and data are available at https://github.com/THUDM/CaRR.
PDF301January 13, 2026