RAGEN: Zelfevolutie in LLM-agents begrijpen via multi-turn reinforcement learning

Samenvatting

Het trainen van grote taalmodellen (LLMs) als interactieve agents brengt unieke uitdagingen met zich mee, waaronder besluitvorming op lange termijn en interactie met stochastische omgevingsfeedback. Hoewel reinforcement learning (RL) vooruitgang heeft geboekt in statische taken, blijft multi-turn agent RL-training onderbelicht. Wij stellen StarPO (State-Thinking-Actions-Reward Policy Optimization) voor, een algemeen raamwerk voor trajectniveau agent RL, en introduceren RAGEN, een modulair systeem voor het trainen en evalueren van LLM-agents. Onze studie in drie gestileerde omgevingen onthult drie kernbevindingen. Ten eerste toont onze agent RL-training een terugkerend patroon van de Echo Trap, waarbij sprake is van reward-variantiekliffen en gradientpieken; wij pakken dit aan met StarPO-S, een gestabiliseerde variant met trajectfiltering, critic-incorporatie en ontkoppelde clipping. Ten tweede constateren wij dat het vormgeven van RL-rollouts baat zou hebben bij diverse initiële staten, gemiddelde interactiegranulariteit en frequentere sampling. Ten derde tonen wij aan dat zonder fijnmazige, redeneringsbewuste reward-signalen, agentredenering nauwelijks naar voren komt via multi-turn RL en zij oppervlakkige strategieën of gehallucineerde gedachten kunnen vertonen. Code en omgevingen zijn beschikbaar op https://github.com/RAGEN-AI/RAGEN.

English

Training large language models (LLMs) as interactive agents presents unique challenges including long-horizon decision making and interacting with stochastic environment feedback. While reinforcement learning (RL) has enabled progress in static tasks, multi-turn agent RL training remains underexplored. We propose StarPO (State-Thinking-Actions-Reward Policy Optimization), a general framework for trajectory-level agent RL, and introduce RAGEN, a modular system for training and evaluating LLM agents. Our study on three stylized environments reveals three core findings. First, our agent RL training shows a recurring mode of Echo Trap where reward variance cliffs and gradient spikes; we address this with StarPO-S, a stabilized variant with trajectory filtering, critic incorporation, and decoupled clipping. Second, we find the shaping of RL rollouts would benefit from diverse initial states, medium interaction granularity and more frequent sampling. Third, we show that without fine-grained, reasoning-aware reward signals, agent reasoning hardly emerge through multi-turn RL and they may show shallow strategies or hallucinated thoughts. Code and environments are available at https://github.com/RAGEN-AI/RAGEN.

RAGEN: Zelfevolutie in LLM-agents begrijpen via multi-turn reinforcement learning

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

Samenvatting

Support