Исследование модели вознаграждения за логическое мышление для агентов
Exploring Reasoning Reward Model for Agents
January 29, 2026
Авторы: Kaixuan Fan, Kaituo Feng, Manyuan Zhang, Tianshuo Peng, Zhixun Li, Yilei Jiang, Shuang Chen, Peng Pei, Xunliang Cai, Xiangyu Yue
cs.AI
Аннотация
Агентное обучение с подкреплением (Agentic RL) достигло значительных успехов в обеспечении способности агентов к сложным рассуждениям и использованию инструментов. Однако большинство методов по-прежнему опираются на разреженные вознаграждения, основанные на итоговом результате. Такая обратная связь не позволяет дифференцировать качество промежуточных рассуждений, что приводит к неоптимальным результатам обучения. В данной статье мы представляем Модель вознаграждения за рассуждения агента (Agent-RRM) — многогранную модель вознаграждения, которая формирует структурированную обратную связь для агентных траекторий, включающую: (1) явную трассировку рассуждений, (2) сфокусированную критику, предоставляющую руководство по улучшению за счет выделения логических ошибок, и (3) интегральную оценку, измеряющую эффективность процесса. Используя эти сигналы, мы систематически исследуем три стратегии интеграции: Reagent-C (уточнение с текстовым дополнением), Reagent-R (руководство с дополнением вознаграждением) и Reagent-U (унифицированная интеграция обратной связи). Масштабные оценки на 12 разнообразных бенчмарках демонстрируют, что Reagent-U обеспечивает существенный скачок производительности, достигая 43.7% на GAIA и 46.2% на WebWalkerQA, что подтверждает эффективность нашей модели вознаграждения за рассуждения и схем обучения. Код, модели и наборы данных опубликованы для содействия будущим исследованиям.
English
Agentic Reinforcement Learning (Agentic RL) has achieved notable success in enabling agents to perform complex reasoning and tool use. However, most methods still relies on sparse outcome-based reward for training. Such feedback fails to differentiate intermediate reasoning quality, leading to suboptimal training results. In this paper, we introduce Agent Reasoning Reward Model (Agent-RRM), a multi-faceted reward model that produces structured feedback for agentic trajectories, including (1) an explicit reasoning trace , (2) a focused critique that provides refinement guidance by highlighting reasoning flaws, and (3) an overall score that evaluates process performance. Leveraging these signals, we systematically investigate three integration strategies: Reagent-C (text-augmented refinement), Reagent-R (reward-augmented guidance), and Reagent-U (unified feedback integration). Extensive evaluations across 12 diverse benchmarks demonstrate that Reagent-U yields substantial performance leaps, achieving 43.7% on GAIA and 46.2% on WebWalkerQA, validating the effectiveness of our reasoning reward model and training schemes. Code, models, and datasets are all released to facilitate future research.