Guida Pratica per l'Apprendimento per Rinforzo Agente a Turni Multipli

Abstract

Studiamo ciò che effettivamente funziona e ciò che non funziona per l'addestramento di grandi modelli linguistici come agenti tramite apprendimento per rinforzo multi-turn. Nonostante i rapidi progressi, i framework e le definizioni esistenti sono frammentati, e manca una formulazione o analisi sistematica di quali scelte progettuali siano rilevanti tra i vari task. Colmiamo questa lacuna suddividendo inizialmente lo spazio di progettazione in tre pilastri interconnessi — ambiente, ricompensa e politica — e derivando empiricamente una ricetta per l'addestramento di agenti basati su LLM in domini testuali situati. In particolare, testiamo TextWorld e ALFWorld, domini popolari per valutare il ragionamento situato ed embodied, nonché SWE-Gym per task più orientati all'ingegneria del software. (i) Per l'ambiente, analizziamo l'impatto della complessità del task in termini di dimensioni degli spazi di stato e azione, nonché della lunghezza della soluzione ottimale, osservando che anche ambienti semplici all'interno di un dominio possono fornire indicazioni su quanto bene un agente possa generalizzare a task più complessi. (ii) Per la ricompensa, studiamo la relativa sparsità della ricompensa, notando che, sebbene ricompense dense a livello di turno accelerino l'addestramento, le prestazioni e la stabilità dipendono fortemente dalla scelta dell'algoritmo di RL. (iii) Per la politica dell'agente, esploriamo l'interazione tra sparsità della ricompensa e metodi di gradiente della politica con bias (PPO, GRPO) e senza bias (RLOO), oltre a mostrare come trovare il rapporto ottimale tra Fine-tuning Supervisionato (SFT) e addestramento RL dato un budget fisso. Sintetizziamo questi risultati in una ricetta di addestramento che guida la co-progettazione tra i tre pilastri, facilitando la ricerca e gli sforzi pratici nell'apprendimento per rinforzo multi-turn per agenti. Codice: https://github.com/pearls-lab/meow-tea-taro

English

We study what actually works and what doesn't for training large language models as agents via multi-turn reinforcement learning. Despite rapid progress, existing frameworks and definitions are fragmented, and there is no systematic formulation or analysis of which design choices matter across tasks. We address this gap by first breaking down the design space into three inter-related pillars -- environment, reward, and policy -- and empirically derive a recipe for training LLM agents in situated textual domains. In particular, we test TextWorld and ALFWorld, popular domains for testing situated embodied reasoning, as well as SWE-Gym for more software engineering style tasks. (i) For the environment, we analyze the impacts of task complexity in terms of sizes of the state and action spaces as well as optimal solution length, finding that even simple environments within a domain can provide signal on how well an agent can generalize to more complex tasks. (ii) For the reward, we ablate relative reward sparsity, observing that while dense turn-level rewards accelerate training, performance and stability is highly dependent on the choice of RL algorithm. (iii) And for the agent's policy, we explore the interplay between reward sparsity and biased (PPO, GRPO) and unbiased (RLOO) policy gradient methods in addition to showing how to find the optimal Supervised Fine-tuning (SFT) to RL training ratio given a fixed budget. We distill these findings into a training recipe that guides co-design across the three pillars, facilitating research and practical efforts in multi-turn agentic RL. Code: https://github.com/pearls-lab/meow-tea-taro

Guida Pratica per l'Apprendimento per Rinforzo Agente a Turni Multipli

A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

Abstract

Support