Ein Leitfaden für die Praxis zu mehrstufigem agentenbasiertem Verstärkungslernen

papers.abstract

Wir untersuchen, was tatsächlich funktioniert und was nicht, wenn es darum geht, große Sprachmodelle als Agenten durch mehrstufiges Reinforcement Learning zu trainieren. Trotz rasanter Fortschritte sind bestehende Frameworks und Definitionen fragmentiert, und es gibt keine systematische Formulierung oder Analyse, welche Designentscheidungen über verschiedene Aufgaben hinweg relevant sind. Wir schließen diese Lücke, indem wir zunächst den Designraum in drei miteinander verbundene Säulen unterteilen – Umgebung, Belohnung und Policy – und empirisch ein Rezept für das Training von LLM-Agenten in situierten textuellen Domänen ableiten. Insbesondere testen wir TextWorld und ALFWorld, beliebte Domänen zur Überprüfung von situiertem verkörpertem Denken, sowie SWE-Gym für Aufgaben im Stil der Softwareentwicklung. (i) Für die Umgebung analysieren wir die Auswirkungen der Aufgabenkomplexität in Bezug auf die Größe der Zustands- und Aktionsräume sowie die Länge der optimalen Lösung und stellen fest, dass selbst einfache Umgebungen innerhalb einer Domäne Aufschluss darüber geben können, wie gut ein Agent auf komplexere Aufgaben verallgemeinern kann. (ii) Für die Belohnung untersuchen wir die relative Sparsamkeit der Belohnung und beobachten, dass zwar dichte Belohnungen auf Turn-Ebene das Training beschleunigen, Leistung und Stabilität jedoch stark von der Wahl des RL-Algorithmus abhängen. (iii) Und für die Policy des Agenten erforschen wir das Zusammenspiel zwischen Belohnungssparsamkeit und verzerrten (PPO, GRPO) sowie unverzerrten (RLOO) Policy-Gradienten-Methoden und zeigen darüber hinaus, wie das optimale Verhältnis zwischen Supervised Fine-tuning (SFT) und RL-Training bei einem festen Budget gefunden werden kann. Wir verdichten diese Erkenntnisse in ein Trainingsrezept, das die gemeinsame Gestaltung über die drei Säulen hinweg leitet und so die Forschung und praktische Arbeit im Bereich des mehrstufigen agentenbasierten Reinforcement Learning erleichtert. Code: https://github.com/pearls-lab/meow-tea-taro

English

We study what actually works and what doesn't for training large language models as agents via multi-turn reinforcement learning. Despite rapid progress, existing frameworks and definitions are fragmented, and there is no systematic formulation or analysis of which design choices matter across tasks. We address this gap by first breaking down the design space into three inter-related pillars -- environment, reward, and policy -- and empirically derive a recipe for training LLM agents in situated textual domains. In particular, we test TextWorld and ALFWorld, popular domains for testing situated embodied reasoning, as well as SWE-Gym for more software engineering style tasks. (i) For the environment, we analyze the impacts of task complexity in terms of sizes of the state and action spaces as well as optimal solution length, finding that even simple environments within a domain can provide signal on how well an agent can generalize to more complex tasks. (ii) For the reward, we ablate relative reward sparsity, observing that while dense turn-level rewards accelerate training, performance and stability is highly dependent on the choice of RL algorithm. (iii) And for the agent's policy, we explore the interplay between reward sparsity and biased (PPO, GRPO) and unbiased (RLOO) policy gradient methods in addition to showing how to find the optimal Supervised Fine-tuning (SFT) to RL training ratio given a fixed budget. We distill these findings into a training recipe that guides co-design across the three pillars, facilitating research and practical efforts in multi-turn agentic RL. Code: https://github.com/pearls-lab/meow-tea-taro

Ein Leitfaden für die Praxis zu mehrstufigem agentenbasiertem Verstärkungslernen

A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

papers.abstract

Support