Guía Práctica para el Aprendizaje por Refuerzo Agéntico de Múltiples Turnos

Resumen

Estudiamos qué funciona y qué no funciona para entrenar modelos de lenguaje grandes como agentes mediante aprendizaje por refuerzo de múltiples turnos. A pesar del rápido progreso, los marcos y definiciones existentes están fragmentados, y no existe una formulación o análisis sistemático de qué decisiones de diseño son importantes en diferentes tareas. Abordamos esta brecha desglosando primero el espacio de diseño en tres pilares interrelacionados —entorno, recompensa y política— y derivamos empíricamente una receta para entrenar agentes de modelos de lenguaje en dominios textuales situados. En particular, probamos TextWorld y ALFWorld, dominios populares para evaluar razonamiento encarnado situado, así como SWE-Gym para tareas más orientadas a la ingeniería de software. (i) Para el entorno, analizamos los impactos de la complejidad de la tarea en términos del tamaño de los espacios de estado y acción, así como la longitud de la solución óptima, encontrando que incluso entornos simples dentro de un dominio pueden proporcionar información sobre qué tan bien un agente puede generalizar a tareas más complejas. (ii) Para la recompensa, estudiamos la escasez relativa de recompensas, observando que, aunque las recompensas densas a nivel de turno aceleran el entrenamiento, el rendimiento y la estabilidad dependen en gran medida de la elección del algoritmo de aprendizaje por refuerzo. (iii) Y para la política del agente, exploramos la interacción entre la escasez de recompensas y los métodos de gradiente de política sesgados (PPO, GRPO) y no sesgados (RLOO), además de mostrar cómo encontrar la proporción óptima entre ajuste fino supervisado (SFT) y entrenamiento por refuerzo dado un presupuesto fijo. Destilamos estos hallazgos en una receta de entrenamiento que guía el co-diseño a través de los tres pilares, facilitando la investigación y los esfuerzos prácticos en el aprendizaje por refuerzo agencial de múltiples turnos. Código: https://github.com/pearls-lab/meow-tea-taro

English

We study what actually works and what doesn't for training large language models as agents via multi-turn reinforcement learning. Despite rapid progress, existing frameworks and definitions are fragmented, and there is no systematic formulation or analysis of which design choices matter across tasks. We address this gap by first breaking down the design space into three inter-related pillars -- environment, reward, and policy -- and empirically derive a recipe for training LLM agents in situated textual domains. In particular, we test TextWorld and ALFWorld, popular domains for testing situated embodied reasoning, as well as SWE-Gym for more software engineering style tasks. (i) For the environment, we analyze the impacts of task complexity in terms of sizes of the state and action spaces as well as optimal solution length, finding that even simple environments within a domain can provide signal on how well an agent can generalize to more complex tasks. (ii) For the reward, we ablate relative reward sparsity, observing that while dense turn-level rewards accelerate training, performance and stability is highly dependent on the choice of RL algorithm. (iii) And for the agent's policy, we explore the interplay between reward sparsity and biased (PPO, GRPO) and unbiased (RLOO) policy gradient methods in addition to showing how to find the optimal Supervised Fine-tuning (SFT) to RL training ratio given a fixed budget. We distill these findings into a training recipe that guides co-design across the three pillars, facilitating research and practical efforts in multi-turn agentic RL. Code: https://github.com/pearls-lab/meow-tea-taro

Guía Práctica para el Aprendizaje por Refuerzo Agéntico de Múltiples Turnos

A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

Resumen

Support