ChatPaper.aiChatPaper

Pagar Menos Impuestos de Generalización: Un Estudio de Generalización Cruzada en el Entrenamiento por RL para Agentes de LLM

Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

January 26, 2026
Autores: Zhihan Liu, Lin Guan, Yixin Nie, Kai Zhang, Zhuoqun Hao, Lin Chen, Asli Celikyilmaz, Zhaoran Wang, Na Zhang
cs.AI

Resumen

Los agentes de LLM generalistas suelen ser post-entrenados en un conjunto reducido de entornos, pero se despliegan en dominios mucho más amplios y no vistos. En este trabajo, investigamos el desafío del post-entrenamiento de agentes cuando los dominios de prueba finales son desconocidos. Específicamente, analizamos qué propiedades de los entornos de aprendizaje por refuerzo (RL) y qué decisiones de modelado tienen la mayor influencia en el rendimiento fuera del dominio. Primero, identificamos dos ejes del entorno que se correlacionan fuertemente con la generalización cruzada de dominios: (i) la riqueza de información del estado, es decir, la cantidad de información que el agente debe procesar a partir del estado, y (ii) la complejidad de planificación, estimada mediante la alcanzabilidad de objetivos y la longitud de la trayectoria bajo una política base. Cabe destacar que el realismo del dominio y la similitud a nivel textual no son los factores principales; por ejemplo, el dominio simple de mundo de cuadrícula Sokoban conduce a una generalización aún más fuerte en SciWorld que el más realista ALFWorld. Motivados por estos hallazgos, demostramos además que simplemente aumentar la riqueza de información del estado ya puede mejorar eficazmente la robustez cruzada de dominios. Proponemos una técnica de aleatorización, que es de bajo costo y ampliamente aplicable: añadir pequeñas cantidades de características distractoras irrelevantes para el objetivo al estado para enriquecerlo sin alterar la tarea. Más allá de las propiedades del entorno, también examinamos varias decisiones de modelado: (a) el precalentamiento con SFT o el entrenamiento intermedio ayuda a prevenir el olvido catastrófico durante el RL, pero socava la generalización a dominios que no se incluyen en la mezcla de datos del entrenamiento intermedio; y (b) activar el pensamiento paso a paso durante el RL, aunque no siempre mejora el rendimiento dentro del dominio, juega un papel crucial en la preservación de la generalización.
English
Generalist LLM agents are often post-trained on a narrow set of environments but deployed across far broader, unseen domains. In this work, we investigate the challenge of agentic post-training when the eventual test domains are unknown. Specifically, we analyze which properties of reinforcement learning (RL) environments and modeling choices have the greatest influence on out-of-domain performance. First, we identify two environment axes that strongly correlate with cross-domain generalization: (i) state information richness, i.e., the amount of information for the agent to process from the state, and (ii) planning complexity, estimated via goal reachability and trajectory length under a base policy. Notably, domain realism and text-level similarity are not the primary factors; for instance, the simple grid-world domain Sokoban leads to even stronger generalization in SciWorld than the more realistic ALFWorld. Motivated by these findings, we further show that increasing state information richness alone can already effectively improve cross-domain robustness. We propose a randomization technique, which is low-overhead and broadly applicable: add small amounts of distractive goal-irrelevant features to the state to make it richer without altering the task. Beyond environment-side properties, we also examine several modeling choices: (a) SFT warmup or mid-training helps prevent catastrophic forgetting during RL but undermines generalization to domains that are not included in the mid-training datamix; and (b) turning on step-by-step thinking during RL, while not always improving in-domain performance, plays a crucial role in preserving generalization.
PDF71January 28, 2026