Weniger Generalisierungssteuer zahlen: Eine Studie zur domänenübergreifenden Generalisierung von RL-Training für LLM-Agenten
Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents
January 26, 2026
papers.authors: Zhihan Liu, Lin Guan, Yixin Nie, Kai Zhang, Zhuoqun Hao, Lin Chen, Asli Celikyilmaz, Zhaoran Wang, Na Zhang
cs.AI
papers.abstract
Generische LLM-Agenten werden häufig auf eine begrenzte Menge von Umgebungen nachtrainiert, aber anschließend in viel breiteren, unbekannten Domänen eingesetzt. In dieser Arbeit untersuchen wir die Herausforderung des agentenbasierten Nachtrainierens, wenn die zukünftigen Testdomänen unbekannt sind. Konkret analysieren wir, welche Eigenschaften von Reinforcement-Learning(RL)-Umgebungen und Modellierungsentscheidungen den größten Einfluss auf die Out-of-Domain-Leistung haben. Zunächst identifizieren wir zwei Umgebungsachsen, die stark mit domänenübergreifender Generalisierung korrelieren: (i) den Informationsreichtum des Zustands, d.h. die Menge an Informationen, die der Agent aus dem Zustand verarbeiten muss, und (ii) die Planungskomplexität, geschätzt über Zielerreichbarkeit und Trajektorienlänge unter einer Basis-Policy. Bemerkenswerterweise sind Domänenrealismus und textuelle Ähnlichkeit nicht die primären Faktoren; so führt beispielsweise die einfache Grid-World-Domäne Sokoban zu einer stärkeren Generalisierung in SciWorld als die realistischere ALFWorld. Aufbauend auf diesen Erkenntnissen zeigen wir weiter, dass bereits eine Erhöhung des Informationsreichtums des Zustands allein die domänenübergreifende Robustheit effektiv verbessern kann. Wir schlagen eine Randomisierungs-Technik vor, die ressourcenschonend und breit anwendbar ist: füge dem Zustand geringe Mengen ablenkender, zielirrelevanter Merkmale hinzu, um ihn informativer zu machen, ohne die Aufgabe zu verändern. Neben umgebungsseitigen Eigenschaften untersuchen wir auch mehrere Modellierungsentscheidungen: (a) SFT-Vorbereitung oder Mid-Training hilft, katastrophales Vergessen während des RL zu verhindern, untergräbt aber die Generalisierung auf Domänen, die nicht im Mid-Training-Datamix enthalten sind; und (b) das Aktivieren von schrittweisem Denken während des RL, das nicht immer die In-Domain-Leistung verbessert, spielt eine entscheidende Rolle für den Erhalt der Generalisierungsfähigkeit.
English
Generalist LLM agents are often post-trained on a narrow set of environments but deployed across far broader, unseen domains. In this work, we investigate the challenge of agentic post-training when the eventual test domains are unknown. Specifically, we analyze which properties of reinforcement learning (RL) environments and modeling choices have the greatest influence on out-of-domain performance. First, we identify two environment axes that strongly correlate with cross-domain generalization: (i) state information richness, i.e., the amount of information for the agent to process from the state, and (ii) planning complexity, estimated via goal reachability and trajectory length under a base policy. Notably, domain realism and text-level similarity are not the primary factors; for instance, the simple grid-world domain Sokoban leads to even stronger generalization in SciWorld than the more realistic ALFWorld. Motivated by these findings, we further show that increasing state information richness alone can already effectively improve cross-domain robustness. We propose a randomization technique, which is low-overhead and broadly applicable: add small amounts of distractive goal-irrelevant features to the state to make it richer without altering the task. Beyond environment-side properties, we also examine several modeling choices: (a) SFT warmup or mid-training helps prevent catastrophic forgetting during RL but undermines generalization to domains that are not included in the mid-training datamix; and (b) turning on step-by-step thinking during RL, while not always improving in-domain performance, plays a crucial role in preserving generalization.