Guia Prático para Aprendizado por Reforço Agente em Múltiplos Turnos

Resumo

Estudamos o que realmente funciona e o que não funciona para treinar modelos de linguagem de grande escala como agentes por meio de aprendizado por reforço de múltiplas interações. Apesar do rápido progresso, os frameworks e definições existentes são fragmentados, e não há uma formulação ou análise sistemática de quais escolhas de design são importantes em diferentes tarefas. Abordamos essa lacuna primeiro dividindo o espaço de design em três pilares inter-relacionados — ambiente, recompensa e política — e derivamos empiricamente uma receita para treinar agentes de LLM em domínios textuais situados. Em particular, testamos TextWorld e ALFWorld, domínios populares para testar raciocínio situado e incorporado, bem como SWE-Gym para tarefas mais voltadas à engenharia de software. (i) Para o ambiente, analisamos os impactos da complexidade da tarefa em termos de tamanhos dos espaços de estado e ação, bem como do comprimento da solução ótima, descobrindo que até mesmo ambientes simples dentro de um domínio podem fornecer sinais sobre o quão bem um agente pode generalizar para tarefas mais complexas. (ii) Para a recompensa, realizamos uma ablação da escassez relativa de recompensas, observando que, embora recompensas densas em nível de interação acelerem o treinamento, o desempenho e a estabilidade dependem fortemente da escolha do algoritmo de RL. (iii) E para a política do agente, exploramos a interação entre a escassez de recompensas e métodos de gradiente de política tendenciosos (PPO, GRPO) e não tendenciosos (RLOO), além de mostrar como encontrar a proporção ideal entre Ajuste Fino Supervisionado (SFT) e treinamento de RL, dado um orçamento fixo. Destilamos essas descobertas em uma receita de treinamento que orienta o co-design entre os três pilares, facilitando pesquisas e esforços práticos em RL agentico de múltiplas interações. Código: https://github.com/pearls-lab/meow-tea-taro

English

We study what actually works and what doesn't for training large language models as agents via multi-turn reinforcement learning. Despite rapid progress, existing frameworks and definitions are fragmented, and there is no systematic formulation or analysis of which design choices matter across tasks. We address this gap by first breaking down the design space into three inter-related pillars -- environment, reward, and policy -- and empirically derive a recipe for training LLM agents in situated textual domains. In particular, we test TextWorld and ALFWorld, popular domains for testing situated embodied reasoning, as well as SWE-Gym for more software engineering style tasks. (i) For the environment, we analyze the impacts of task complexity in terms of sizes of the state and action spaces as well as optimal solution length, finding that even simple environments within a domain can provide signal on how well an agent can generalize to more complex tasks. (ii) For the reward, we ablate relative reward sparsity, observing that while dense turn-level rewards accelerate training, performance and stability is highly dependent on the choice of RL algorithm. (iii) And for the agent's policy, we explore the interplay between reward sparsity and biased (PPO, GRPO) and unbiased (RLOO) policy gradient methods in addition to showing how to find the optimal Supervised Fine-tuning (SFT) to RL training ratio given a fixed budget. We distill these findings into a training recipe that guides co-design across the three pillars, facilitating research and practical efforts in multi-turn agentic RL. Code: https://github.com/pearls-lab/meow-tea-taro

Guia Prático para Aprendizado por Reforço Agente em Múltiplos Turnos

A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

Resumo

Support