Guide pratique pour l'apprentissage par renforcement agentique multi-tours

papers.abstract

Nous étudions ce qui fonctionne réellement et ce qui ne fonctionne pas pour l'entraînement de grands modèles de langage en tant qu'agents via l'apprentissage par renforcement multi-tours. Malgré les progrès rapides, les cadres et définitions existants sont fragmentés, et il n'existe pas de formulation ou d'analyse systématique des choix de conception qui importent à travers les tâches. Nous comblons cette lacune en décomposant d'abord l'espace de conception en trois piliers interdépendants — environnement, récompense et politique — et en dérivant empiriquement une recette pour l'entraînement d'agents LLM dans des domaines textuels situés. En particulier, nous testons TextWorld et ALFWorld, des domaines populaires pour tester le raisonnement incarné situé, ainsi que SWE-Gym pour des tâches plus proches de l'ingénierie logicielle. (i) Pour l'environnement, nous analysons les impacts de la complexité des tâches en termes de taille des espaces d'état et d'action ainsi que de la longueur optimale de la solution, constatant que même des environnements simples au sein d'un domaine peuvent fournir des indications sur la capacité d'un agent à généraliser à des tâches plus complexes. (ii) Pour la récompense, nous étudions la rareté relative des récompenses, observant que bien que des récompenses denses au niveau des tours accélèrent l'entraînement, la performance et la stabilité dépendent fortement du choix de l'algorithme de RL. (iii) Et pour la politique de l'agent, nous explorons l'interaction entre la rareté des récompenses et les méthodes de gradient de politique biaisées (PPO, GRPO) et non biaisées (RLOO), en plus de montrer comment trouver le ratio optimal entre le Fine-tuning Supervisé (SFT) et l'entraînement RL pour un budget fixe. Nous condensons ces découvertes en une recette d'entraînement qui guide la co-conception à travers les trois piliers, facilitant les efforts de recherche et pratiques dans le RL agentique multi-tours. Code : https://github.com/pearls-lab/meow-tea-taro

English

We study what actually works and what doesn't for training large language models as agents via multi-turn reinforcement learning. Despite rapid progress, existing frameworks and definitions are fragmented, and there is no systematic formulation or analysis of which design choices matter across tasks. We address this gap by first breaking down the design space into three inter-related pillars -- environment, reward, and policy -- and empirically derive a recipe for training LLM agents in situated textual domains. In particular, we test TextWorld and ALFWorld, popular domains for testing situated embodied reasoning, as well as SWE-Gym for more software engineering style tasks. (i) For the environment, we analyze the impacts of task complexity in terms of sizes of the state and action spaces as well as optimal solution length, finding that even simple environments within a domain can provide signal on how well an agent can generalize to more complex tasks. (ii) For the reward, we ablate relative reward sparsity, observing that while dense turn-level rewards accelerate training, performance and stability is highly dependent on the choice of RL algorithm. (iii) And for the agent's policy, we explore the interplay between reward sparsity and biased (PPO, GRPO) and unbiased (RLOO) policy gradient methods in addition to showing how to find the optimal Supervised Fine-tuning (SFT) to RL training ratio given a fixed budget. We distill these findings into a training recipe that guides co-design across the three pillars, facilitating research and practical efforts in multi-turn agentic RL. Code: https://github.com/pearls-lab/meow-tea-taro

Guide pratique pour l'apprentissage par renforcement agentique multi-tours

A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

papers.abstract

Support