RAGEN: Compreendendo a Auto-Evolução em Agentes de LLM por meio de Aprendizado por Reforço Multi-Turn
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
April 24, 2025
Autores: Zihan Wang, Kangrui Wang, Qineng Wang, Pingyue Zhang, Linjie Li, Zhengyuan Yang, Kefan Yu, Minh Nhat Nguyen, Licheng Liu, Eli Gottlieb, Monica Lam, Yiping Lu, Kyunghyun Cho, Jiajun Wu, Li Fei-Fei, Lijuan Wang, Yejin Choi, Manling Li
cs.AI
Resumo
O treinamento de grandes modelos de linguagem (LLMs) como agentes interativos apresenta desafios únicos, incluindo tomada de decisão de longo prazo e interação com feedback estocástico do ambiente. Embora o aprendizado por reforço (RL) tenha permitido avanços em tarefas estáticas, o treinamento de RL para agentes de múltiplas interações ainda é pouco explorado. Propomos o StarPO (State-Thinking-Actions-Reward Policy Optimization), um framework geral para RL de agentes em nível de trajetória, e introduzimos o RAGEN, um sistema modular para treinar e avaliar agentes LLM. Nosso estudo em três ambientes estilizados revela três descobertas principais. Primeiro, nosso treinamento de RL para agentes mostra um modo recorrente de "Echo Trap", onde há variações abruptas de recompensa e picos de gradiente; abordamos isso com o StarPO-S, uma variante estabilizada com filtragem de trajetória, incorporação de crítico e recorte desacoplado. Segundo, descobrimos que a modelagem de rollouts de RL se beneficiaria de estados iniciais diversos, granularidade média de interação e amostragem mais frequente. Terceiro, mostramos que, sem sinais de recompensa detalhados e conscientes do raciocínio, o raciocínio do agente dificilmente emerge através de RL de múltiplas interações, podendo apresentar estratégias superficiais ou pensamentos alucinados. Código e ambientes estão disponíveis em https://github.com/RAGEN-AI/RAGEN.
English
Training large language models (LLMs) as interactive agents presents unique
challenges including long-horizon decision making and interacting with
stochastic environment feedback. While reinforcement learning (RL) has enabled
progress in static tasks, multi-turn agent RL training remains underexplored.
We propose StarPO (State-Thinking-Actions-Reward Policy Optimization), a
general framework for trajectory-level agent RL, and introduce RAGEN, a modular
system for training and evaluating LLM agents. Our study on three stylized
environments reveals three core findings. First, our agent RL training shows a
recurring mode of Echo Trap where reward variance cliffs and gradient spikes;
we address this with StarPO-S, a stabilized variant with trajectory filtering,
critic incorporation, and decoupled clipping. Second, we find the shaping of RL
rollouts would benefit from diverse initial states, medium interaction
granularity and more frequent sampling. Third, we show that without
fine-grained, reasoning-aware reward signals, agent reasoning hardly emerge
through multi-turn RL and they may show shallow strategies or hallucinated
thoughts. Code and environments are available at
https://github.com/RAGEN-AI/RAGEN.