RAGEN: Zelfevolutie in LLM-agents begrijpen via multi-turn reinforcement learning
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
April 24, 2025
Auteurs: Zihan Wang, Kangrui Wang, Qineng Wang, Pingyue Zhang, Linjie Li, Zhengyuan Yang, Kefan Yu, Minh Nhat Nguyen, Licheng Liu, Eli Gottlieb, Monica Lam, Yiping Lu, Kyunghyun Cho, Jiajun Wu, Li Fei-Fei, Lijuan Wang, Yejin Choi, Manling Li
cs.AI
Samenvatting
Het trainen van grote taalmodellen (LLMs) als interactieve agents brengt unieke uitdagingen met zich mee, waaronder besluitvorming op lange termijn en interactie met stochastische omgevingsfeedback. Hoewel reinforcement learning (RL) vooruitgang heeft geboekt in statische taken, blijft multi-turn agent RL-training onderbelicht. Wij stellen StarPO (State-Thinking-Actions-Reward Policy Optimization) voor, een algemeen raamwerk voor trajectniveau agent RL, en introduceren RAGEN, een modulair systeem voor het trainen en evalueren van LLM-agents. Onze studie in drie gestileerde omgevingen onthult drie kernbevindingen. Ten eerste toont onze agent RL-training een terugkerend patroon van de Echo Trap, waarbij sprake is van reward-variantiekliffen en gradientpieken; wij pakken dit aan met StarPO-S, een gestabiliseerde variant met trajectfiltering, critic-incorporatie en ontkoppelde clipping. Ten tweede constateren wij dat het vormgeven van RL-rollouts baat zou hebben bij diverse initiële staten, gemiddelde interactiegranulariteit en frequentere sampling. Ten derde tonen wij aan dat zonder fijnmazige, redeneringsbewuste reward-signalen, agentredenering nauwelijks naar voren komt via multi-turn RL en zij oppervlakkige strategieën of gehallucineerde gedachten kunnen vertonen. Code en omgevingen zijn beschikbaar op https://github.com/RAGEN-AI/RAGEN.
English
Training large language models (LLMs) as interactive agents presents unique
challenges including long-horizon decision making and interacting with
stochastic environment feedback. While reinforcement learning (RL) has enabled
progress in static tasks, multi-turn agent RL training remains underexplored.
We propose StarPO (State-Thinking-Actions-Reward Policy Optimization), a
general framework for trajectory-level agent RL, and introduce RAGEN, a modular
system for training and evaluating LLM agents. Our study on three stylized
environments reveals three core findings. First, our agent RL training shows a
recurring mode of Echo Trap where reward variance cliffs and gradient spikes;
we address this with StarPO-S, a stabilized variant with trajectory filtering,
critic incorporation, and decoupled clipping. Second, we find the shaping of RL
rollouts would benefit from diverse initial states, medium interaction
granularity and more frequent sampling. Third, we show that without
fine-grained, reasoning-aware reward signals, agent reasoning hardly emerge
through multi-turn RL and they may show shallow strategies or hallucinated
thoughts. Code and environments are available at
https://github.com/RAGEN-AI/RAGEN.