ChatPaper.aiChatPaper

Demistificare l'Apprendimento per Rinforzo nel Ragionamento Agente

Demystifying Reinforcement Learning in Agentic Reasoning

October 13, 2025
Autori: Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang
cs.AI

Abstract

Recentemente, l'emergere dell'RL agenziale ha dimostrato che l'RL potrebbe anche migliorare efficacemente la capacità di ragionamento agenziale degli LLM, sebbene i principi chiave di progettazione e le pratiche ottimali rimangano poco chiari. In questo lavoro, conduciamo un'indagine completa e sistematica per chiarire il ruolo del reinforcement learning nel ragionamento agenziale da tre prospettive chiave: dati, algoritmo e modalità di ragionamento. Evidenziamo le nostre principali intuizioni: (i) Sostituire traiettorie sintetiche assemblate con traiettorie reali end-to-end di utilizzo di strumenti fornisce un'inizializzazione SFT molto più solida; dataset ad alta diversità e consapevoli del modello sostengono l'esplorazione e migliorano significativamente le prestazioni dell'RL. (ii) Tecniche favorevoli all'esplorazione sono cruciali per l'RL agenziale, come il clipping superiore, il reward shaping prolungato e il mantenimento di un'adeguata entropia della policy, che possono migliorare l'efficienza dell'addestramento. (iii) Una strategia deliberativa con un minor numero di chiamate a strumenti supera le chiamate frequenti o il ragionamento verboso autonomo, migliorando l'efficienza degli strumenti e l'accuratezza finale. Insieme, queste semplici pratiche migliorano costantemente il ragionamento agenziale e l'efficienza dell'addestramento, ottenendo risultati solidi su benchmark impegnativi con modelli più piccoli e stabilendo una baseline pratica per la futura ricerca sull'RL agenziale. Oltre a queste intuizioni empiriche, contribuiamo ulteriormente con un dataset SFT agenziale end-to-end di alta qualità insieme a un dataset RL di alta qualità, e dimostriamo l'efficacia delle nostre intuizioni nel potenziare la capacità di ragionamento agenziale degli LLM su quattro benchmark impegnativi, tra cui AIME2024/AIME2025, GPQA-Diamond e LiveCodeBench-v6. Con le nostre ricette, modelli di dimensioni 4B possono anche ottenere prestazioni di ragionamento agenziale superiori rispetto a modelli di dimensioni 32B. Codice e modelli: https://github.com/Gen-Verse/Open-AgentRL
English
Recently, the emergence of agentic RL has showcased that RL could also effectively improve the agentic reasoning ability of LLMs, yet the key design principles and optimal practices remain unclear. In this work, we conduct a comprehensive and systematic investigation to demystify reinforcement learning in agentic reasoning from three key perspectives: data, algorithm, and reasoning mode. We highlight our key insights: (i) Replacing stitched synthetic trajectories with real end-to-end tool-use trajectories yields a far stronger SFT initialization; high-diversity, model-aware datasets sustain exploration and markedly improve RL performance. (ii) Exploration-friendly techniques are crucial for agentic RL, such as clip higher, overlong reward shaping, and maintaining adequate policy entropy could improve the training efficiency. (iii) A deliberative strategy with fewer tool calls outperforms frequent tool calls or verbose self-reasoning, improving tool efficiency and final accuracy. Together, these simple practices consistently enhance agentic reasoning and training efficiency, achieving strong results on challenging benchmarks with smaller models, and establishing a practical baseline for future agentic RL research. Beyond these empirical insights, we further contribute a high-quality, real end-to-end agentic SFT dataset along with a high-quality RL dataset, and demonstrate the effectiveness of our insights in boosting the agentic reasoning ability of LLMs across four challenging benchmarks, including AIME2024/AIME2025, GPQA-Diamond, and LiveCodeBench-v6. With our recipes, 4B-sized models could also achieve superior agentic reasoning performance compared to 32B-sized models. Code and models: https://github.com/Gen-Verse/Open-AgentRL
PDF302October 14, 2025