RAGEN: Compreendendo a Auto-Evolução em Agentes de LLM por meio de Aprendizado por Reforço Multi-Turn

Resumo

O treinamento de grandes modelos de linguagem (LLMs) como agentes interativos apresenta desafios únicos, incluindo tomada de decisão de longo prazo e interação com feedback estocástico do ambiente. Embora o aprendizado por reforço (RL) tenha permitido avanços em tarefas estáticas, o treinamento de RL para agentes de múltiplas interações ainda é pouco explorado. Propomos o StarPO (State-Thinking-Actions-Reward Policy Optimization), um framework geral para RL de agentes em nível de trajetória, e introduzimos o RAGEN, um sistema modular para treinar e avaliar agentes LLM. Nosso estudo em três ambientes estilizados revela três descobertas principais. Primeiro, nosso treinamento de RL para agentes mostra um modo recorrente de "Echo Trap", onde há variações abruptas de recompensa e picos de gradiente; abordamos isso com o StarPO-S, uma variante estabilizada com filtragem de trajetória, incorporação de crítico e recorte desacoplado. Segundo, descobrimos que a modelagem de rollouts de RL se beneficiaria de estados iniciais diversos, granularidade média de interação e amostragem mais frequente. Terceiro, mostramos que, sem sinais de recompensa detalhados e conscientes do raciocínio, o raciocínio do agente dificilmente emerge através de RL de múltiplas interações, podendo apresentar estratégias superficiais ou pensamentos alucinados. Código e ambientes estão disponíveis em https://github.com/RAGEN-AI/RAGEN.

English

Training large language models (LLMs) as interactive agents presents unique challenges including long-horizon decision making and interacting with stochastic environment feedback. While reinforcement learning (RL) has enabled progress in static tasks, multi-turn agent RL training remains underexplored. We propose StarPO (State-Thinking-Actions-Reward Policy Optimization), a general framework for trajectory-level agent RL, and introduce RAGEN, a modular system for training and evaluating LLM agents. Our study on three stylized environments reveals three core findings. First, our agent RL training shows a recurring mode of Echo Trap where reward variance cliffs and gradient spikes; we address this with StarPO-S, a stabilized variant with trajectory filtering, critic incorporation, and decoupled clipping. Second, we find the shaping of RL rollouts would benefit from diverse initial states, medium interaction granularity and more frequent sampling. Third, we show that without fine-grained, reasoning-aware reward signals, agent reasoning hardly emerge through multi-turn RL and they may show shallow strategies or hallucinated thoughts. Code and environments are available at https://github.com/RAGEN-AI/RAGEN.

RAGEN: Compreendendo a Auto-Evolução em Agentes de LLM por meio de Aprendizado por Reforço Multi-Turn

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

Resumo

Support