Desmitificando el Aprendizaje por Refuerzo en el Razonamiento Agente
Demystifying Reinforcement Learning in Agentic Reasoning
October 13, 2025
Autores: Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang
cs.AI
Resumen
Recientemente, el surgimiento del RL agencial ha demostrado que el RL también puede mejorar de manera efectiva la capacidad de razonamiento agencial de los LLMs, aunque los principios clave de diseño y las mejores prácticas siguen sin estar claros. En este trabajo, llevamos a cabo una investigación exhaustiva y sistemática para desmitificar el aprendizaje por refuerzo en el razonamiento agencial desde tres perspectivas clave: datos, algoritmo y modo de razonamiento. Destacamos nuestras principales conclusiones: (i) Reemplazar trayectorias sintéticas ensambladas con trayectorias reales de uso de herramientas de extremo a extremo proporciona una inicialización SFT mucho más sólida; los conjuntos de datos de alta diversidad y conscientes del modelo sostienen la exploración y mejoran notablemente el rendimiento del RL. (ii) Las técnicas amigables para la exploración son cruciales para el RL agencial, como recortar valores altos, dar forma a recompensas excesivamente largas y mantener una entropía de política adecuada, lo que podría mejorar la eficiencia del entrenamiento. (iii) Una estrategia deliberativa con menos llamadas a herramientas supera a las llamadas frecuentes a herramientas o al razonamiento propio verboso, mejorando la eficiencia de las herramientas y la precisión final. Juntas, estas prácticas simples mejoran consistentemente el razonamiento agencial y la eficiencia del entrenamiento, logrando resultados sólidos en puntos de referencia desafiantes con modelos más pequeños y estableciendo una base práctica para futuras investigaciones en RL agencial. Más allá de estas conclusiones empíricas, contribuimos además con un conjunto de datos SFT agencial de alta calidad y de extremo a extremo, junto con un conjunto de datos RL de alta calidad, y demostramos la efectividad de nuestras conclusiones para potenciar la capacidad de razonamiento agencial de los LLMs en cuatro puntos de referencia desafiantes, incluyendo AIME2024/AIME2025, GPQA-Diamond y LiveCodeBench-v6. Con nuestras recetas, modelos de 4B también pueden lograr un rendimiento superior en razonamiento agencial en comparación con modelos de 32B. Código y modelos: https://github.com/Gen-Verse/Open-AgentRL
English
Recently, the emergence of agentic RL has showcased that RL could also
effectively improve the agentic reasoning ability of LLMs, yet the key design
principles and optimal practices remain unclear. In this work, we conduct a
comprehensive and systematic investigation to demystify reinforcement learning
in agentic reasoning from three key perspectives: data, algorithm, and
reasoning mode. We highlight our key insights: (i) Replacing stitched synthetic
trajectories with real end-to-end tool-use trajectories yields a far stronger
SFT initialization; high-diversity, model-aware datasets sustain exploration
and markedly improve RL performance. (ii) Exploration-friendly techniques are
crucial for agentic RL, such as clip higher, overlong reward shaping, and
maintaining adequate policy entropy could improve the training efficiency.
(iii) A deliberative strategy with fewer tool calls outperforms frequent tool
calls or verbose self-reasoning, improving tool efficiency and final accuracy.
Together, these simple practices consistently enhance agentic reasoning and
training efficiency, achieving strong results on challenging benchmarks with
smaller models, and establishing a practical baseline for future agentic RL
research. Beyond these empirical insights, we further contribute a
high-quality, real end-to-end agentic SFT dataset along with a high-quality RL
dataset, and demonstrate the effectiveness of our insights in boosting the
agentic reasoning ability of LLMs across four challenging benchmarks, including
AIME2024/AIME2025, GPQA-Diamond, and LiveCodeBench-v6. With our recipes,
4B-sized models could also achieve superior agentic reasoning performance
compared to 32B-sized models. Code and models:
https://github.com/Gen-Verse/Open-AgentRL