Démystification de l'apprentissage par renforcement dans le raisonnement agentique
Demystifying Reinforcement Learning in Agentic Reasoning
October 13, 2025
papers.authors: Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang
cs.AI
papers.abstract
Récemment, l'émergence de l'apprentissage par renforcement (RL) agentique a démontré que le RL pouvait également améliorer efficacement la capacité de raisonnement agentique des grands modèles de langage (LLMs), bien que les principes clés de conception et les meilleures pratiques restent flous. Dans ce travail, nous menons une investigation complète et systématique pour démystifier l'apprentissage par renforcement dans le raisonnement agentique à travers trois perspectives clés : les données, l'algorithme et le mode de raisonnement. Nous mettons en avant nos principales observations : (i) Remplacer les trajectoires synthétiques assemblées par des trajectoires réelles d'utilisation d'outils de bout en bout fournit une initialisation SFT bien plus robuste ; des ensembles de données diversifiés et conscients du modèle soutiennent l'exploration et améliorent significativement les performances du RL. (ii) Les techniques favorisant l'exploration sont cruciales pour le RL agentique, comme le clipping supérieur, le façonnage de récompenses sur de longues périodes, et le maintien d'une entropie de politique adéquate, ce qui peut améliorer l'efficacité de l'entraînement. (iii) Une stratégie délibérative avec moins d'appels d'outils surpasse les appels fréquents d'outils ou les raisonnements auto-référentiels verbeux, améliorant l'efficacité des outils et la précision finale. Ensemble, ces pratiques simples améliorent de manière constante le raisonnement agentique et l'efficacité de l'entraînement, obtenant des résultats solides sur des benchmarks difficiles avec des modèles plus petits, et établissant une base pratique pour les futures recherches en RL agentique. Au-delà de ces observations empiriques, nous contribuons également un ensemble de données SFT agentique de bout en bout de haute qualité ainsi qu'un ensemble de données RL de haute qualité, et démontrons l'efficacité de nos observations pour renforcer la capacité de raisonnement agentique des LLMs sur quatre benchmarks difficiles, incluant AIME2024/AIME2025, GPQA-Diamond, et LiveCodeBench-v6. Avec nos recettes, des modèles de 4B peuvent également atteindre des performances de raisonnement agentique supérieures par rapport à des modèles de 32B. Code et modèles : https://github.com/Gen-Verse/Open-AgentRL
English
Recently, the emergence of agentic RL has showcased that RL could also
effectively improve the agentic reasoning ability of LLMs, yet the key design
principles and optimal practices remain unclear. In this work, we conduct a
comprehensive and systematic investigation to demystify reinforcement learning
in agentic reasoning from three key perspectives: data, algorithm, and
reasoning mode. We highlight our key insights: (i) Replacing stitched synthetic
trajectories with real end-to-end tool-use trajectories yields a far stronger
SFT initialization; high-diversity, model-aware datasets sustain exploration
and markedly improve RL performance. (ii) Exploration-friendly techniques are
crucial for agentic RL, such as clip higher, overlong reward shaping, and
maintaining adequate policy entropy could improve the training efficiency.
(iii) A deliberative strategy with fewer tool calls outperforms frequent tool
calls or verbose self-reasoning, improving tool efficiency and final accuracy.
Together, these simple practices consistently enhance agentic reasoning and
training efficiency, achieving strong results on challenging benchmarks with
smaller models, and establishing a practical baseline for future agentic RL
research. Beyond these empirical insights, we further contribute a
high-quality, real end-to-end agentic SFT dataset along with a high-quality RL
dataset, and demonstrate the effectiveness of our insights in boosting the
agentic reasoning ability of LLMs across four challenging benchmarks, including
AIME2024/AIME2025, GPQA-Diamond, and LiveCodeBench-v6. With our recipes,
4B-sized models could also achieve superior agentic reasoning performance
compared to 32B-sized models. Code and models:
https://github.com/Gen-Verse/Open-AgentRL