에이전트 추론에서의 강화 학습 해설
Demystifying Reinforcement Learning in Agentic Reasoning
October 13, 2025
저자: Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang
cs.AI
초록
최근 에이전트 강화학습(agentic RL)의 등장은 강화학습이 대형 언어 모델(LLM)의 에이전트 추론 능력을 효과적으로 향상시킬 수 있음을 보여주었으나, 핵심 설계 원칙과 최적의 실천 방법은 여전히 명확하지 않습니다. 본 연구에서는 데이터, 알고리즘, 추론 방식이라는 세 가지 핵심 관점에서 에이전트 추론에서의 강화학습을 체계적으로 탐구하여 그 신비를 풀어보고자 합니다. 우리의 주요 통찰은 다음과 같습니다: (i) 합성된 꿰매어진 궤적을 실제 종단 간 도구 사용 궤적으로 대체하면 훨씬 강력한 지도학습(SFT) 초기화를 얻을 수 있으며, 높은 다양성과 모델 인식 데이터셋은 탐색을 유지하고 강화학습 성능을 크게 향상시킵니다. (ii) 탐색 친화적인 기법은 에이전트 강화학습에 중요하며, 클립 상한 조정, 과도한 보상 형성, 적절한 정책 엔트로피 유지 등이 훈련 효율성을 개선할 수 있습니다. (iii) 도구 호출 횟수가 적은 숙고 전략은 빈번한 도구 호출이나 장황한 자기 추론보다 우수하며, 도구 효율성과 최종 정확도를 향상시킵니다. 이러한 간단한 실천 방법들은 에이전트 추론과 훈련 효율성을 일관되게 향상시키며, 더 작은 모델로도 어려운 벤치마크에서 강력한 결과를 달성하고, 향후 에이전트 강화학습 연구를 위한 실용적인 기준을 마련합니다. 이러한 경험적 통찰을 넘어, 우리는 고품질의 실제 종단 간 에이전트 SFT 데이터셋과 고품질 강화학습 데이터셋을 제공하고, AIME2024/AIME2025, GPQA-Diamond, LiveCodeBench-v6 등 네 가지 도전적인 벤치마크에서 LLM의 에이전트 추론 능력을 향상시키는 데 있어 우리의 통찰이 효과적임을 입증합니다. 우리의 방법론을 통해 4B 크기의 모델도 32B 크기의 모델에 비해 우수한 에이전트 추론 성능을 달성할 수 있습니다. 코드와 모델: https://github.com/Gen-Verse/Open-AgentRL
English
Recently, the emergence of agentic RL has showcased that RL could also
effectively improve the agentic reasoning ability of LLMs, yet the key design
principles and optimal practices remain unclear. In this work, we conduct a
comprehensive and systematic investigation to demystify reinforcement learning
in agentic reasoning from three key perspectives: data, algorithm, and
reasoning mode. We highlight our key insights: (i) Replacing stitched synthetic
trajectories with real end-to-end tool-use trajectories yields a far stronger
SFT initialization; high-diversity, model-aware datasets sustain exploration
and markedly improve RL performance. (ii) Exploration-friendly techniques are
crucial for agentic RL, such as clip higher, overlong reward shaping, and
maintaining adequate policy entropy could improve the training efficiency.
(iii) A deliberative strategy with fewer tool calls outperforms frequent tool
calls or verbose self-reasoning, improving tool efficiency and final accuracy.
Together, these simple practices consistently enhance agentic reasoning and
training efficiency, achieving strong results on challenging benchmarks with
smaller models, and establishing a practical baseline for future agentic RL
research. Beyond these empirical insights, we further contribute a
high-quality, real end-to-end agentic SFT dataset along with a high-quality RL
dataset, and demonstrate the effectiveness of our insights in boosting the
agentic reasoning ability of LLMs across four challenging benchmarks, including
AIME2024/AIME2025, GPQA-Diamond, and LiveCodeBench-v6. With our recipes,
4B-sized models could also achieve superior agentic reasoning performance
compared to 32B-sized models. Code and models:
https://github.com/Gen-Verse/Open-AgentRL