Ridurre la Tassa di Generalizzazione: Uno Studio sulla Generalizzazione Interdominio dell'Addestramento RL per Agenti LLM

Abstract

Gli agenti LLM generalisti vengono spesso addestrati in modo post-hoc su un insieme ristretto di ambienti, ma vengono poi impiegati in domini molto più ampi e non visti durante l'addestramento. In questo lavoro, investigiamo la sfida dell'addestramento post-hoc di agenti quando i domini di test finale sono sconosciuti. Nello specifico, analizziamo quali proprietà degli ambienti di apprendimento per rinforzo (RL) e quali scelte di modellazione abbiano la maggiore influenza sulle prestazioni fuori dominio. In primo luogo, identifichiamo due assi ambientali che si correlano fortemente con la generalizzazione cross-dominio: (i) la ricchezza informativa dello stato, ovvero la quantità di informazioni che l'agente deve elaborare dallo stato, e (ii) la complessità di pianificazione, stimata tramite la raggiungibilità dell'obiettivo e la lunghezza della traiettoria sotto una politica di base. È importante notare che il realismo del dominio e la similarità a livello testuale non sono i fattori primari; ad esempio, il semplice dominio a griglia Sokoban porta a una generalizzazione ancora più forte in SciWorld rispetto al più realistico ALFWorld. Motivati da questi risultati, dimostriamo inoltre che aumentare la sola ricchezza informativa dello stato può già migliorare efficacemente la robustezza cross-dominio. Proponiamo una tecnica di randomizzazione, a basso overhead e ampiamente applicabile: aggiungere piccole quantità di caratteristiche distraenti e irrilevanti per l'obiettivo allo stato per renderlo più ricco senza alterare il compito. Oltre alle proprietà legate all'ambiente, esaminiamo anche diverse scelte di modellazione: (a) un riscaldamento con SFT o un addestramento intermedio aiuta a prevenire la dimenticanza catastrofica durante il RL, ma mina la generalizzazione ai domini non inclusi nel mix di dati dell'addestramento intermedio; e (b) l'attivazione del pensiero passo-passo durante il RL, sebbene non migliori sempre le prestazioni in dominio, gioca un ruolo cruciale nel preservare la generalizzazione.

English

Generalist LLM agents are often post-trained on a narrow set of environments but deployed across far broader, unseen domains. In this work, we investigate the challenge of agentic post-training when the eventual test domains are unknown. Specifically, we analyze which properties of reinforcement learning (RL) environments and modeling choices have the greatest influence on out-of-domain performance. First, we identify two environment axes that strongly correlate with cross-domain generalization: (i) state information richness, i.e., the amount of information for the agent to process from the state, and (ii) planning complexity, estimated via goal reachability and trajectory length under a base policy. Notably, domain realism and text-level similarity are not the primary factors; for instance, the simple grid-world domain Sokoban leads to even stronger generalization in SciWorld than the more realistic ALFWorld. Motivated by these findings, we further show that increasing state information richness alone can already effectively improve cross-domain robustness. We propose a randomization technique, which is low-overhead and broadly applicable: add small amounts of distractive goal-irrelevant features to the state to make it richer without altering the task. Beyond environment-side properties, we also examine several modeling choices: (a) SFT warmup or mid-training helps prevent catastrophic forgetting during RL but undermines generalization to domains that are not included in the mid-training datamix; and (b) turning on step-by-step thinking during RL, while not always improving in-domain performance, plays a crucial role in preserving generalization.

Ridurre la Tassa di Generalizzazione: Uno Studio sulla Generalizzazione Interdominio dell'Addestramento RL per Agenti LLM

Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

Abstract

Support