Разоблачение обучения с подкреплением в агентном рассуждении
Demystifying Reinforcement Learning in Agentic Reasoning
October 13, 2025
Авторы: Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang
cs.AI
Аннотация
Недавно появление агентного обучения с подкреплением (RL) продемонстрировало, что RL также может эффективно улучшать способность крупных языковых моделей (LLM) к агентному рассуждению, однако ключевые принципы проектирования и оптимальные практики остаются неясными. В данной работе мы проводим всестороннее и систематическое исследование, чтобы раскрыть суть обучения с подкреплением в контексте агентного рассуждения с трех ключевых перспектив: данные, алгоритм и режим рассуждения. Мы выделяем наши основные выводы: (i) Замена сшитых синтетических траекторий реальными сквозными траекториями использования инструментов обеспечивает гораздо более сильную инициализацию SFT; высокодиверсифицированные, учитывающие модель наборы данных поддерживают исследование и значительно улучшают производительность RL. (ii) Методы, способствующие исследованию, имеют решающее значение для агентного RL, такие как ограничение высоких значений, формирование наград для длинных последовательностей и поддержание достаточной энтропии политики, что может повысить эффективность обучения. (iii) Стратегия обдумывания с меньшим количеством вызовов инструментов превосходит частые вызовы инструментов или многословное саморассуждение, улучшая эффективность использования инструментов и итоговую точность. В совокупности эти простые практики последовательно улучшают агентное рассуждение и эффективность обучения, достигая сильных результатов на сложных бенчмарках с меньшими моделями и устанавливая практическую основу для будущих исследований агентного RL. Помимо этих эмпирических выводов, мы также вносим вклад в виде высококачественного набора данных для сквозного агентного SFT и высококачественного набора данных для RL, демонстрируя эффективность наших идей в повышении способности LLM к агентному рассуждению на четырех сложных бенчмарках, включая AIME2024/AIME2025, GPQA-Diamond и LiveCodeBench-v6. С использованием наших рекомендаций модели размером 4B также могут достичь превосходной производительности в агентном рассуждении по сравнению с моделями размером 32B. Код и модели: https://github.com/Gen-Verse/Open-AgentRL.
English
Recently, the emergence of agentic RL has showcased that RL could also
effectively improve the agentic reasoning ability of LLMs, yet the key design
principles and optimal practices remain unclear. In this work, we conduct a
comprehensive and systematic investigation to demystify reinforcement learning
in agentic reasoning from three key perspectives: data, algorithm, and
reasoning mode. We highlight our key insights: (i) Replacing stitched synthetic
trajectories with real end-to-end tool-use trajectories yields a far stronger
SFT initialization; high-diversity, model-aware datasets sustain exploration
and markedly improve RL performance. (ii) Exploration-friendly techniques are
crucial for agentic RL, such as clip higher, overlong reward shaping, and
maintaining adequate policy entropy could improve the training efficiency.
(iii) A deliberative strategy with fewer tool calls outperforms frequent tool
calls or verbose self-reasoning, improving tool efficiency and final accuracy.
Together, these simple practices consistently enhance agentic reasoning and
training efficiency, achieving strong results on challenging benchmarks with
smaller models, and establishing a practical baseline for future agentic RL
research. Beyond these empirical insights, we further contribute a
high-quality, real end-to-end agentic SFT dataset along with a high-quality RL
dataset, and demonstrate the effectiveness of our insights in boosting the
agentic reasoning ability of LLMs across four challenging benchmarks, including
AIME2024/AIME2025, GPQA-Diamond, and LiveCodeBench-v6. With our recipes,
4B-sized models could also achieve superior agentic reasoning performance
compared to 32B-sized models. Code and models:
https://github.com/Gen-Verse/Open-AgentRL