ChatPaper.aiChatPaper

더 적은 일반화 세금 내기: LLM 에이전트 RL 훈련의 크로스도메인 일반화 연구

Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

January 26, 2026
저자: Zhihan Liu, Lin Guan, Yixin Nie, Kai Zhang, Zhuoqun Hao, Lin Chen, Asli Celikyilmaz, Zhaoran Wang, Na Zhang
cs.AI

초록

범용 LLM 에이전트는 종종 제한된 환경 집합에 대해 사후 훈련을 거친 후 훨씬 더 광범위하고 보지 못한 영역에 배포됩니다. 본 연구에서는 최종 테스트 영역을 알 수 없는 상황에서 에이전트 사후 훈련의 과제를 조사합니다. 구체적으로, 강화 학습(RL) 환경과 모델링 선택의 어떤 특성이 도메인 외 성능에 가장 큰 영향을 미치는지 분석합니다. 먼저, 도메인 간 일반화와 강한 상관관계를 가지는 두 가지 환경 축을 확인했습니다: (i) 상태 정보 풍부성, 즉 에이전트가 상태로부터 처리해야 하는 정보의 양, (ii) 기본 정책 하에서 목표 도달 가능성과 경로 길이를 통해 추정한 계획 복잡성. 특히, 도메인 현실성과 텍스트 수준 유사성은 주요 요인이 아닙니다. 예를 들어, 단순한 그리드 월드 도메인인 소코반은 더 현실적인 ALFWorld보다 SciWorld에서 더 강력한 일반화를 이끌어 냅니다. 이러한 발견에 기반하여, 상태 정보 풍부성만을 증가시키는 것만으로도 도메인 간 강건성을 효과적으로 개선할 수 있음을 추가로 보여줍니다. 우리는 낮은 오버헤드에 널리 적용 가능한 무작위화 기법을 제안합니다: 작업을 변경하지 않고 상태를 더 풍부하게 만들기 위해 작은 양의 주의를 분산시키는 목표와 무관한 특징을 상태에 추가하는 것입니다. 환경 측 특성 외에도 몇 가지 모델링 선택을 검토했습니다: (a) SFT 웜업이나 중간 훈련은 RL 동안 치명적 망각을 방지하는 데 도움이 되지만, 중간 훈련 데이터 믹스에 포함되지 않은 도메인으로의 일반화를 저해합니다; (b) RL 동안 단계별 사고를 활성화하는 것은 인-도메인 성능을 항상 개선하지는 않지만, 일반화를 보존하는 데 중요한 역할을 합니다.
English
Generalist LLM agents are often post-trained on a narrow set of environments but deployed across far broader, unseen domains. In this work, we investigate the challenge of agentic post-training when the eventual test domains are unknown. Specifically, we analyze which properties of reinforcement learning (RL) environments and modeling choices have the greatest influence on out-of-domain performance. First, we identify two environment axes that strongly correlate with cross-domain generalization: (i) state information richness, i.e., the amount of information for the agent to process from the state, and (ii) planning complexity, estimated via goal reachability and trajectory length under a base policy. Notably, domain realism and text-level similarity are not the primary factors; for instance, the simple grid-world domain Sokoban leads to even stronger generalization in SciWorld than the more realistic ALFWorld. Motivated by these findings, we further show that increasing state information richness alone can already effectively improve cross-domain robustness. We propose a randomization technique, which is low-overhead and broadly applicable: add small amounts of distractive goal-irrelevant features to the state to make it richer without altering the task. Beyond environment-side properties, we also examine several modeling choices: (a) SFT warmup or mid-training helps prevent catastrophic forgetting during RL but undermines generalization to domains that are not included in the mid-training datamix; and (b) turning on step-by-step thinking during RL, while not always improving in-domain performance, plays a crucial role in preserving generalization.
PDF71January 28, 2026