Demistificare l'Apprendimento per Rinforzo nel Ragionamento Agente
Demystifying Reinforcement Learning in Agentic Reasoning
October 13, 2025
Autori: Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang
cs.AI
Abstract
Recentemente, l'emergere dell'RL agenziale ha dimostrato che l'RL potrebbe anche migliorare efficacemente la capacità di ragionamento agenziale degli LLM, sebbene i principi chiave di progettazione e le pratiche ottimali rimangano poco chiari. In questo lavoro, conduciamo un'indagine completa e sistematica per chiarire il ruolo del reinforcement learning nel ragionamento agenziale da tre prospettive chiave: dati, algoritmo e modalità di ragionamento. Evidenziamo le nostre principali intuizioni: (i) Sostituire traiettorie sintetiche assemblate con traiettorie reali end-to-end di utilizzo di strumenti fornisce un'inizializzazione SFT molto più solida; dataset ad alta diversità e consapevoli del modello sostengono l'esplorazione e migliorano significativamente le prestazioni dell'RL. (ii) Tecniche favorevoli all'esplorazione sono cruciali per l'RL agenziale, come il clipping superiore, il reward shaping prolungato e il mantenimento di un'adeguata entropia della policy, che possono migliorare l'efficienza dell'addestramento. (iii) Una strategia deliberativa con un minor numero di chiamate a strumenti supera le chiamate frequenti o il ragionamento verboso autonomo, migliorando l'efficienza degli strumenti e l'accuratezza finale. Insieme, queste semplici pratiche migliorano costantemente il ragionamento agenziale e l'efficienza dell'addestramento, ottenendo risultati solidi su benchmark impegnativi con modelli più piccoli e stabilendo una baseline pratica per la futura ricerca sull'RL agenziale. Oltre a queste intuizioni empiriche, contribuiamo ulteriormente con un dataset SFT agenziale end-to-end di alta qualità insieme a un dataset RL di alta qualità, e dimostriamo l'efficacia delle nostre intuizioni nel potenziare la capacità di ragionamento agenziale degli LLM su quattro benchmark impegnativi, tra cui AIME2024/AIME2025, GPQA-Diamond e LiveCodeBench-v6. Con le nostre ricette, modelli di dimensioni 4B possono anche ottenere prestazioni di ragionamento agenziale superiori rispetto a modelli di dimensioni 32B. Codice e modelli: https://github.com/Gen-Verse/Open-AgentRL
English
Recently, the emergence of agentic RL has showcased that RL could also
effectively improve the agentic reasoning ability of LLMs, yet the key design
principles and optimal practices remain unclear. In this work, we conduct a
comprehensive and systematic investigation to demystify reinforcement learning
in agentic reasoning from three key perspectives: data, algorithm, and
reasoning mode. We highlight our key insights: (i) Replacing stitched synthetic
trajectories with real end-to-end tool-use trajectories yields a far stronger
SFT initialization; high-diversity, model-aware datasets sustain exploration
and markedly improve RL performance. (ii) Exploration-friendly techniques are
crucial for agentic RL, such as clip higher, overlong reward shaping, and
maintaining adequate policy entropy could improve the training efficiency.
(iii) A deliberative strategy with fewer tool calls outperforms frequent tool
calls or verbose self-reasoning, improving tool efficiency and final accuracy.
Together, these simple practices consistently enhance agentic reasoning and
training efficiency, achieving strong results on challenging benchmarks with
smaller models, and establishing a practical baseline for future agentic RL
research. Beyond these empirical insights, we further contribute a
high-quality, real end-to-end agentic SFT dataset along with a high-quality RL
dataset, and demonstrate the effectiveness of our insights in boosting the
agentic reasoning ability of LLMs across four challenging benchmarks, including
AIME2024/AIME2025, GPQA-Diamond, and LiveCodeBench-v6. With our recipes,
4B-sized models could also achieve superior agentic reasoning performance
compared to 32B-sized models. Code and models:
https://github.com/Gen-Verse/Open-AgentRL