Desmistificando o Aprendizado por Reforço no Raciocínio Agente
Demystifying Reinforcement Learning in Agentic Reasoning
October 13, 2025
Autores: Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang
cs.AI
Resumo
Recentemente, o surgimento do RL (Reinforcement Learning) agencial demonstrou que o RL também pode melhorar efetivamente a capacidade de raciocínio agencial dos LLMs (Large Language Models), embora os princípios de design fundamentais e as práticas ideais ainda permaneçam pouco claros. Neste trabalho, realizamos uma investigação abrangente e sistemática para desmistificar o uso do reinforcement learning no raciocínio agencial a partir de três perspectivas-chave: dados, algoritmo e modo de raciocínio. Destacamos nossas principais conclusões: (i) Substituir trajetórias sintéticas costuradas por trajetórias reais de uso de ferramentas de ponta a ponta resulta em uma inicialização SFT (Supervised Fine-Tuning) muito mais robusta; conjuntos de dados de alta diversidade e conscientes do modelo sustentam a exploração e melhoram significativamente o desempenho do RL. (ii) Técnicas favoráveis à exploração são cruciais para o RL agencial, como o corte superior, a modelagem de recompensas para trajetórias longas e a manutenção de uma entropia de política adequada, o que pode melhorar a eficiência do treinamento. (iii) Uma estratégia deliberativa com menos chamadas de ferramentas supera chamadas frequentes de ferramentas ou raciocínio autorreferencial extenso, melhorando a eficiência das ferramentas e a precisão final. Juntas, essas práticas simples aprimoram consistentemente o raciocínio agencial e a eficiência do treinamento, alcançando resultados robustos em benchmarks desafiadores com modelos menores e estabelecendo uma base prática para futuras pesquisas em RL agencial. Além desses insights empíricos, contribuímos ainda com um conjunto de dados SFT agencial de alta qualidade e ponta a ponta, juntamente com um conjunto de dados RL de alta qualidade, e demonstramos a eficácia de nossas conclusões no aprimoramento da capacidade de raciocínio agencial dos LLMs em quatro benchmarks desafiadores, incluindo AIME2024/AIME2025, GPQA-Diamond e LiveCodeBench-v6. Com nossas receitas, modelos de 4B também podem alcançar desempenho superior em raciocínio agencial em comparação com modelos de 32B. Código e modelos: https://github.com/Gen-Verse/Open-AgentRL
English
Recently, the emergence of agentic RL has showcased that RL could also
effectively improve the agentic reasoning ability of LLMs, yet the key design
principles and optimal practices remain unclear. In this work, we conduct a
comprehensive and systematic investigation to demystify reinforcement learning
in agentic reasoning from three key perspectives: data, algorithm, and
reasoning mode. We highlight our key insights: (i) Replacing stitched synthetic
trajectories with real end-to-end tool-use trajectories yields a far stronger
SFT initialization; high-diversity, model-aware datasets sustain exploration
and markedly improve RL performance. (ii) Exploration-friendly techniques are
crucial for agentic RL, such as clip higher, overlong reward shaping, and
maintaining adequate policy entropy could improve the training efficiency.
(iii) A deliberative strategy with fewer tool calls outperforms frequent tool
calls or verbose self-reasoning, improving tool efficiency and final accuracy.
Together, these simple practices consistently enhance agentic reasoning and
training efficiency, achieving strong results on challenging benchmarks with
smaller models, and establishing a practical baseline for future agentic RL
research. Beyond these empirical insights, we further contribute a
high-quality, real end-to-end agentic SFT dataset along with a high-quality RL
dataset, and demonstrate the effectiveness of our insights in boosting the
agentic reasoning ability of LLMs across four challenging benchmarks, including
AIME2024/AIME2025, GPQA-Diamond, and LiveCodeBench-v6. With our recipes,
4B-sized models could also achieve superior agentic reasoning performance
compared to 32B-sized models. Code and models:
https://github.com/Gen-Verse/Open-AgentRL