Entmystifizierung des Verstärkungslernens im agentenbasierten Denken
Demystifying Reinforcement Learning in Agentic Reasoning
October 13, 2025
papers.authors: Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang
cs.AI
papers.abstract
Kürzlich hat das Aufkommen von agentenbasiertem Reinforcement Learning (RL) gezeigt, dass RL auch effektiv die agentische Denkfähigkeit von Large Language Models (LLMs) verbessern kann, doch die zentralen Designprinzipien und optimalen Praktiken bleiben unklar. In dieser Arbeit führen wir eine umfassende und systematische Untersuchung durch, um Reinforcement Learning im Kontext von agentischem Denken aus drei Schlüsselperspektiven zu beleuchten: Daten, Algorithmus und Denkmodus. Wir heben unsere zentralen Erkenntnisse hervor: (i) Der Ersatz von zusammengesetzten synthetischen Trajektorien durch reale End-to-End-Tool-Nutzungs-Trajektorien führt zu einer deutlich stärkeren SFT-Initialisierung; hochdiverse, modellbewusste Datensätze unterstützen die Exploration und verbessern die RL-Leistung erheblich. (ii) Exploration-freundliche Techniken sind entscheidend für agentisches RL, wie z. B. das Clippen hoher Werte, überlange Belohnungsformung und die Beibehaltung einer angemessenen Policy-Entropie, was die Trainings effizienz steigern kann. (iii) Eine deliberative Strategie mit weniger Tool-Aufrufen übertrifft häufige Tool-Aufrufe oder ausuferndes Selbst-Denken, was die Tool-Effizienz und die finale Genauigkeit verbessert. Zusammengenommen verbessern diese einfachen Praktiken konsequent das agentische Denken und die Trainings effizienz, erzielen starke Ergebnisse auf anspruchsvollen Benchmarks mit kleineren Modellen und etablieren eine praktische Basis für zukünftige agentische RL-Forschung. Über diese empirischen Erkenntnisse hinaus tragen wir weiterhin einen hochwertigen, realen End-to-End-agentischen SFT-Datensatz sowie einen hochwertigen RL-Datensatz bei und demonstrieren die Wirksamkeit unserer Erkenntnisse bei der Steigerung der agentischen Denkfähigkeit von LLMs über vier anspruchsvolle Benchmarks hinweg, darunter AIME2024/AIME2025, GPQA-Diamond und LiveCodeBench-v6. Mit unseren Methoden können auch 4B-große Modelle eine überlegene agentische Denkleistung im Vergleich zu 32B-großen Modellen erreichen. Code und Modelle: https://github.com/Gen-Verse/Open-AgentRL
English
Recently, the emergence of agentic RL has showcased that RL could also
effectively improve the agentic reasoning ability of LLMs, yet the key design
principles and optimal practices remain unclear. In this work, we conduct a
comprehensive and systematic investigation to demystify reinforcement learning
in agentic reasoning from three key perspectives: data, algorithm, and
reasoning mode. We highlight our key insights: (i) Replacing stitched synthetic
trajectories with real end-to-end tool-use trajectories yields a far stronger
SFT initialization; high-diversity, model-aware datasets sustain exploration
and markedly improve RL performance. (ii) Exploration-friendly techniques are
crucial for agentic RL, such as clip higher, overlong reward shaping, and
maintaining adequate policy entropy could improve the training efficiency.
(iii) A deliberative strategy with fewer tool calls outperforms frequent tool
calls or verbose self-reasoning, improving tool efficiency and final accuracy.
Together, these simple practices consistently enhance agentic reasoning and
training efficiency, achieving strong results on challenging benchmarks with
smaller models, and establishing a practical baseline for future agentic RL
research. Beyond these empirical insights, we further contribute a
high-quality, real end-to-end agentic SFT dataset along with a high-quality RL
dataset, and demonstrate the effectiveness of our insights in boosting the
agentic reasoning ability of LLMs across four challenging benchmarks, including
AIME2024/AIME2025, GPQA-Diamond, and LiveCodeBench-v6. With our recipes,
4B-sized models could also achieve superior agentic reasoning performance
compared to 32B-sized models. Code and models:
https://github.com/Gen-Verse/Open-AgentRL