Minder Generalisatietaks Betalen: Een Cross-domein Generalisatiestudie van RL-training voor LLM-agenten

Samenvatting

Algemene LLM-agenten worden vaak nagevormd op een beperkte set omgevingen, maar ingezet in veel bredere, onbekende domeinen. In dit werk onderzoeken we de uitdaging van agent-navorming wanneer de uiteindelijke testdomeinen onbekend zijn. Specifiek analyseren we welke eigenschappen van reinforcement learning (RL)-omgevingen en modelkeuzes de grootste invloed hebben op de prestaties buiten het domein. Ten eerste identificeren we twee omgevingassen die sterk correleren met domeinoverstijgende generalisatie: (i) rijkdom aan toestandinformatie, d.w.z. de hoeveelheid informatie die de agent uit de toestand moet verwerken, en (ii) planningscomplexiteit, geschat via doelbereikbaarheid en trajectlengte onder een basisbeleid. Opmerkelijk genoeg zijn domeinrealisme en tekstuele gelijkenis niet de primaire factoren; bijvoorbeeld, het eenvoudige roosterwerelddomein Sokoban leidt tot een sterkere generalisatie in SciWorld dan het meer realistische ALFWorld. Gemotiveerd door deze bevindingen, tonen we verder aan dat het alleen al vergroten van de rijkdom aan toestandinformatie de robuustheid over domeinen heen effectief kan verbeteren. We stellen een randomisatietechniek voor, die weinig overhead kent en breed toepasbaar is: voeg kleine hoeveelheden afleidende, doel-irrelevante kenmerken toe aan de toestand om deze rijker te maken zonder de taak te veranderen. Naast eigenschappen aan de omgevingskant, onderzoeken we ook verschillende modelkeuzes: (a) SFT-opwarming of mid-training helpt catastrofaal vergeten tijdens RL te voorkomen, maar ondermijnt generalisatie naar domeinen die niet zijn opgenomen in de mid-training datamix; en (b) het inschakelen van stap-voor-stap-denken tijdens RL, hoewel het niet altijd de prestaties binnen het domein verbetert, speelt een cruciale rol bij het behoud van generalisatie.

English

Generalist LLM agents are often post-trained on a narrow set of environments but deployed across far broader, unseen domains. In this work, we investigate the challenge of agentic post-training when the eventual test domains are unknown. Specifically, we analyze which properties of reinforcement learning (RL) environments and modeling choices have the greatest influence on out-of-domain performance. First, we identify two environment axes that strongly correlate with cross-domain generalization: (i) state information richness, i.e., the amount of information for the agent to process from the state, and (ii) planning complexity, estimated via goal reachability and trajectory length under a base policy. Notably, domain realism and text-level similarity are not the primary factors; for instance, the simple grid-world domain Sokoban leads to even stronger generalization in SciWorld than the more realistic ALFWorld. Motivated by these findings, we further show that increasing state information richness alone can already effectively improve cross-domain robustness. We propose a randomization technique, which is low-overhead and broadly applicable: add small amounts of distractive goal-irrelevant features to the state to make it richer without altering the task. Beyond environment-side properties, we also examine several modeling choices: (a) SFT warmup or mid-training helps prevent catastrophic forgetting during RL but undermines generalization to domains that are not included in the mid-training datamix; and (b) turning on step-by-step thinking during RL, while not always improving in-domain performance, plays a crucial role in preserving generalization.

Minder Generalisatietaks Betalen: Een Cross-domein Generalisatiestudie van RL-training voor LLM-agenten

Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

Samenvatting

Support