Een praktische gids voor multi-turn agent-gebaseerd reinforcement learning

Samenvatting

We onderzoeken wat daadwerkelijk werkt en wat niet voor het trainen van grote taalmodellen als agents via multi-turn reinforcement learning. Ondanks snelle vooruitgang zijn bestaande frameworks en definities gefragmenteerd, en is er geen systematische formulering of analyse van welke ontwerpkeuzes van belang zijn over taken heen. We pakken deze leemte aan door eerst de ontwerpruimte op te delen in drie onderling verbonden pijlers — omgeving, beloning en beleid — en empirisch een recept af te leiden voor het trainen van LLM-agents in gesitueerde tekstuele domeinen. In het bijzonder testen we TextWorld en ALFWorld, populaire domeinen voor het testen van gesitueerd belichaamd redeneren, evenals SWE-Gym voor meer software engineering-stijl taken. (i) Voor de omgeving analyseren we de impact van taakcomplexiteit in termen van de grootte van de staat- en actieruimtes evenals de optimale oplossingslengte, en vinden dat zelfs eenvoudige omgevingen binnen een domein signalen kunnen geven over hoe goed een agent kan generaliseren naar complexere taken. (ii) Voor de beloning onderzoeken we de relatieve spaarzaamheid van beloningen, en observeren dat hoewel dichte beloningen per beurt de training versnellen, de prestaties en stabiliteit sterk afhankelijk zijn van de keuze van het RL-algoritme. (iii) En voor het beleid van de agent onderzoeken we de wisselwerking tussen beloningsspaarzaamheid en bevooroordeelde (PPO, GRPO) en onbevooroordeelde (RLOO) beleidsgradiëntmethoden, naast het laten zien hoe de optimale verhouding tussen Supervised Fine-tuning (SFT) en RL-training kan worden gevonden bij een vast budget. We destilleren deze bevindingen in een trainingsrecept dat co-ontwerp over de drie pijlers begeleidt, wat onderzoek en praktische inspanningen in multi-turn agentic RL vergemakkelijkt. Code: https://github.com/pearls-lab/meow-tea-taro

English

We study what actually works and what doesn't for training large language models as agents via multi-turn reinforcement learning. Despite rapid progress, existing frameworks and definitions are fragmented, and there is no systematic formulation or analysis of which design choices matter across tasks. We address this gap by first breaking down the design space into three inter-related pillars -- environment, reward, and policy -- and empirically derive a recipe for training LLM agents in situated textual domains. In particular, we test TextWorld and ALFWorld, popular domains for testing situated embodied reasoning, as well as SWE-Gym for more software engineering style tasks. (i) For the environment, we analyze the impacts of task complexity in terms of sizes of the state and action spaces as well as optimal solution length, finding that even simple environments within a domain can provide signal on how well an agent can generalize to more complex tasks. (ii) For the reward, we ablate relative reward sparsity, observing that while dense turn-level rewards accelerate training, performance and stability is highly dependent on the choice of RL algorithm. (iii) And for the agent's policy, we explore the interplay between reward sparsity and biased (PPO, GRPO) and unbiased (RLOO) policy gradient methods in addition to showing how to find the optimal Supervised Fine-tuning (SFT) to RL training ratio given a fixed budget. We distill these findings into a training recipe that guides co-design across the three pillars, facilitating research and practical efforts in multi-turn agentic RL. Code: https://github.com/pearls-lab/meow-tea-taro

Een praktische gids voor multi-turn agent-gebaseerd reinforcement learning

A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

Samenvatting

Support