Réduire la taxe de généralisation : une étude de généralisation interdomaine sur l'entraînement par RL pour les agents LLM
Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents
January 26, 2026
papers.authors: Zhihan Liu, Lin Guan, Yixin Nie, Kai Zhang, Zhuoqun Hao, Lin Chen, Asli Celikyilmaz, Zhaoran Wang, Na Zhang
cs.AI
papers.abstract
Les agents LLM généralistes sont souvent post-entraînés sur un ensemble restreint d'environnements mais déployés dans des domaines beaucoup plus vastes et non vus. Dans ce travail, nous étudions le défi du post-entraînement agentique lorsque les domaines de test finaux sont inconnus. Plus précisément, nous analysons quelles propriétés des environnements d'apprentissage par renforcement (RL) et quels choix de modélisation influencent le plus les performances hors domaine. Premièrement, nous identifions deux axes environnementaux qui corrèlent fortement avec la généralisation inter-domaines : (i) la richesse informationnelle de l'état, c'est-à-dire la quantité d'information que l'agent doit traiter à partir de l'état, et (ii) la complexité de la planification, estimée via l'accessibilité des objectifs et la longueur des trajectoires sous une politique de base. Il est à noter que le réalisme du domaine et la similarité textuelle ne sont pas les facteurs primaires ; par exemple, le domaine simple de type grille Sokoban conduit à une généralisation encore plus forte dans SciWorld que le domaine plus réaliste ALFWorld. Motivés par ces résultats, nous montrons en outre qu'augmenter uniquement la richesse informationnelle de l'état peut déjà améliorer efficacement la robustesse inter-domaines. Nous proposons une technique de randomisation, peu coûteuse et largement applicable : ajouter de petites quantités de caractéristiques distractives et non pertinentes pour l'objectif à l'état pour le rendre plus riche sans altérer la tâche. Au-delà des propriétés du côté environnement, nous examinons également plusieurs choix de modélisation : (a) un préchauffage par SFT ou un entraînement intermédiaire aide à prévenir l'oubli catastrophique durant le RL mais compromet la généralisation vers les domaines non inclus dans le mélange de données d'entraînement intermédiaire ; et (b) l'activation de la pensée pas-à-pas durant le RL, bien qu'elle n'améliore pas toujours les performances en domaine, joue un rôle crucial dans la préservation de la généralisation.
English
Generalist LLM agents are often post-trained on a narrow set of environments but deployed across far broader, unseen domains. In this work, we investigate the challenge of agentic post-training when the eventual test domains are unknown. Specifically, we analyze which properties of reinforcement learning (RL) environments and modeling choices have the greatest influence on out-of-domain performance. First, we identify two environment axes that strongly correlate with cross-domain generalization: (i) state information richness, i.e., the amount of information for the agent to process from the state, and (ii) planning complexity, estimated via goal reachability and trajectory length under a base policy. Notably, domain realism and text-level similarity are not the primary factors; for instance, the simple grid-world domain Sokoban leads to even stronger generalization in SciWorld than the more realistic ALFWorld. Motivated by these findings, we further show that increasing state information richness alone can already effectively improve cross-domain robustness. We propose a randomization technique, which is low-overhead and broadly applicable: add small amounts of distractive goal-irrelevant features to the state to make it richer without altering the task. Beyond environment-side properties, we also examine several modeling choices: (a) SFT warmup or mid-training helps prevent catastrophic forgetting during RL but undermines generalization to domains that are not included in the mid-training datamix; and (b) turning on step-by-step thinking during RL, while not always improving in-domain performance, plays a crucial role in preserving generalization.