Demystificatie van Reinforcement Learning in Agentisch Redeneren
Demystifying Reinforcement Learning in Agentic Reasoning
October 13, 2025
Auteurs: Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang
cs.AI
Samenvatting
Recentelijk heeft de opkomst van agentische RL aangetoond dat RL ook effectief het agentische redeneervermogen van LLM's kan verbeteren, hoewel de belangrijkste ontwerpprincipes en optimale praktijken nog onduidelijk blijven. In dit werk voeren we een uitgebreid en systematisch onderzoek uit om reinforcement learning in agentisch redeneren te ontrafelen vanuit drie sleutelperspectieven: data, algoritme en redeneermodus. We benadrukken onze belangrijkste inzichten: (i) Het vervangen van samengestelde synthetische trajecten door echte end-to-end tool-use trajecten resulteert in een veel sterkere SFT-initialisatie; datasets met hoge diversiteit en modelbewustzijn ondersteunen exploratie en verbeteren de RL-prestaties aanzienlijk. (ii) Exploratievriendelijke technieken zijn cruciaal voor agentische RL, zoals het beperken van hogere waarden, het vormen van overmatige beloningen en het behouden van voldoende beleidsentropie, wat de trainings efficiëntie kan verbeteren. (iii) Een weloverwogen strategie met minder tool-aanroepen presteert beter dan frequente tool-aanroepen of uitgebreid zelfredeneren, wat de tool-efficiëntie en uiteindelijke nauwkeurigheid verbetert. Samen zorgen deze eenvoudige praktijken voor een consistente verbetering van het agentische redeneervermogen en de trainings efficiëntie, wat sterke resultaten oplevert op uitdagende benchmarks met kleinere modellen en een praktische basis legt voor toekomstig agentisch RL-onderzoek. Naast deze empirische inzichten dragen we verder bij met een hoogwaardige, echte end-to-end agentische SFT-dataset, samen met een hoogwaardige RL-dataset, en demonstreren we de effectiviteit van onze inzichten in het verbeteren van het agentische redeneervermogen van LLM's over vier uitdagende benchmarks, waaronder AIME2024/AIME2025, GPQA-Diamond en LiveCodeBench-v6. Met onze aanpak kunnen zelfs modellen van 4B grootte superieur agentisch redeneervermogen bereiken in vergelijking met modellen van 32B grootte. Code en modellen: https://github.com/Gen-Verse/Open-AgentRL
English
Recently, the emergence of agentic RL has showcased that RL could also
effectively improve the agentic reasoning ability of LLMs, yet the key design
principles and optimal practices remain unclear. In this work, we conduct a
comprehensive and systematic investigation to demystify reinforcement learning
in agentic reasoning from three key perspectives: data, algorithm, and
reasoning mode. We highlight our key insights: (i) Replacing stitched synthetic
trajectories with real end-to-end tool-use trajectories yields a far stronger
SFT initialization; high-diversity, model-aware datasets sustain exploration
and markedly improve RL performance. (ii) Exploration-friendly techniques are
crucial for agentic RL, such as clip higher, overlong reward shaping, and
maintaining adequate policy entropy could improve the training efficiency.
(iii) A deliberative strategy with fewer tool calls outperforms frequent tool
calls or verbose self-reasoning, improving tool efficiency and final accuracy.
Together, these simple practices consistently enhance agentic reasoning and
training efficiency, achieving strong results on challenging benchmarks with
smaller models, and establishing a practical baseline for future agentic RL
research. Beyond these empirical insights, we further contribute a
high-quality, real end-to-end agentic SFT dataset along with a high-quality RL
dataset, and demonstrate the effectiveness of our insights in boosting the
agentic reasoning ability of LLMs across four challenging benchmarks, including
AIME2024/AIME2025, GPQA-Diamond, and LiveCodeBench-v6. With our recipes,
4B-sized models could also achieve superior agentic reasoning performance
compared to 32B-sized models. Code and models:
https://github.com/Gen-Verse/Open-AgentRL