Pagar Menos Imposto de Generalização: Um Estudo de Generalização Cruzada no Treinamento por RL para Agentes de LLM

Resumo

Os agentes de LLM generalistas são frequentemente pós-treinados num conjunto restrito de ambientes, mas são implantados em domínios muito mais amplos e não vistos. Neste trabalho, investigamos o desafio do pós-treinamento agentivo quando os domínios de teste finais são desconhecidos. Especificamente, analisamos quais propriedades dos ambientes de aprendizagem por reforço (RL) e escolhas de modelagem têm a maior influência no desempenho fora do domínio. Primeiro, identificamos dois eixos ambientais que se correlacionam fortemente com a generalização cruzada de domínios: (i) a riqueza de informação do estado, ou seja, a quantidade de informação para o agente processar a partir do estado, e (ii) a complexidade de planeamento, estimada através da alcançabilidade do objetivo e do comprimento da trajetória sob uma política base. Notavelmente, o realismo do domínio e a similaridade a nível de texto não são os fatores primários; por exemplo, o domínio simples de mundo em grelha Sokoban leva a uma generalização ainda mais forte em SciWorld do que o ALFWorld mais realista. Motivados por estas descobertas, mostramos ainda que aumentar apenas a riqueza de informação do estado pode já melhorar efetivamente a robustez cruzada de domínios. Propomos uma técnica de randomização, de baixa sobrecarga e amplamente aplicável: adicionar pequenas quantidades de características distrativas irrelevantes para o objetivo ao estado para o tornar mais rico sem alterar a tarefa. Para além das propriedades do lado do ambiente, também examinamos várias escolhas de modelagem: (a) o aquecimento por SFT ou o treino intermédio ajuda a prevenir o esquecimento catastrófico durante o RL, mas prejudica a generalização para domínios que não estão incluídos na mistura de dados do treino intermédio; e (b) ativar o pensamento passo a passo durante o RL, embora nem sempre melhore o desempenho dentro do domínio, desempenha um papel crucial na preservação da generalização.

English

Generalist LLM agents are often post-trained on a narrow set of environments but deployed across far broader, unseen domains. In this work, we investigate the challenge of agentic post-training when the eventual test domains are unknown. Specifically, we analyze which properties of reinforcement learning (RL) environments and modeling choices have the greatest influence on out-of-domain performance. First, we identify two environment axes that strongly correlate with cross-domain generalization: (i) state information richness, i.e., the amount of information for the agent to process from the state, and (ii) planning complexity, estimated via goal reachability and trajectory length under a base policy. Notably, domain realism and text-level similarity are not the primary factors; for instance, the simple grid-world domain Sokoban leads to even stronger generalization in SciWorld than the more realistic ALFWorld. Motivated by these findings, we further show that increasing state information richness alone can already effectively improve cross-domain robustness. We propose a randomization technique, which is low-overhead and broadly applicable: add small amounts of distractive goal-irrelevant features to the state to make it richer without altering the task. Beyond environment-side properties, we also examine several modeling choices: (a) SFT warmup or mid-training helps prevent catastrophic forgetting during RL but undermines generalization to domains that are not included in the mid-training datamix; and (b) turning on step-by-step thinking during RL, while not always improving in-domain performance, plays a crucial role in preserving generalization.

Pagar Menos Imposto de Generalização: Um Estudo de Generalização Cruzada no Treinamento por RL para Agentes de LLM

Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

Resumo

Support