ChatPaper.aiChatPaper

一般化コストの削減:LLMエージェントの強化学習トレーニングにおけるドメイン横断的一般化の研究

Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

January 26, 2026
著者: Zhihan Liu, Lin Guan, Yixin Nie, Kai Zhang, Zhuoqun Hao, Lin Chen, Asli Celikyilmaz, Zhaoran Wang, Na Zhang
cs.AI

要旨

一般化LLMエージェントは、限られた環境群で事後学習されることが多い一方で、はるかに広範な未見領域に展開される。本研究では、最終的なテスト領域が未知である場合のエージェント事後学習の課題を検討する。具体的には、強化学習(RL)環境の特性とモデリングの選択肢のうち、どの要因が領域外性能に最も大きな影響を与えるかを分析する。まず、領域横断的な一般化と強く相関する2つの環境軸を特定する:(i)状態情報の豊富さ(エージェントが状態から処理すべき情報量)、および(ii)計画の複雑さ(基本方策下での目標到達可能性と軌道長により推定)。特に、領域の現実味やテキストレベルの類似性は主要因ではない。例えば、現実的なALFWorldよりも、単純なグリッドワールド領域であるSokobanで学習した方が、SciWorldにおいてより強力な一般化が達成される。これらの知見に基づき、状態情報の豊富さを単独で増加させるだけでも、領域横断的な頑健性を効果的に改善できることをさらに示す。我々は、低コストで広く適用可能なランダム化手法を提案する:タスクを変更せずに状態をより豊かにするため、少量の注意散漫な目標無関連の特徴を状態に追加する。環境側の特性に加えて、いくつかのモデリング選択肢も検証する:(a)SFTによるウォームアップまたは学習途中での追加学習は、RL中の破滅的忘却を防ぐが、追加学習データに含まれない領域への一般化を損なう;(b)RL中にステップバイステップ思考を有効にすることは、領域内性能を常に改善するわけではないが、一般化能力を維持する上で重要な役割を果たす。
English
Generalist LLM agents are often post-trained on a narrow set of environments but deployed across far broader, unseen domains. In this work, we investigate the challenge of agentic post-training when the eventual test domains are unknown. Specifically, we analyze which properties of reinforcement learning (RL) environments and modeling choices have the greatest influence on out-of-domain performance. First, we identify two environment axes that strongly correlate with cross-domain generalization: (i) state information richness, i.e., the amount of information for the agent to process from the state, and (ii) planning complexity, estimated via goal reachability and trajectory length under a base policy. Notably, domain realism and text-level similarity are not the primary factors; for instance, the simple grid-world domain Sokoban leads to even stronger generalization in SciWorld than the more realistic ALFWorld. Motivated by these findings, we further show that increasing state information richness alone can already effectively improve cross-domain robustness. We propose a randomization technique, which is low-overhead and broadly applicable: add small amounts of distractive goal-irrelevant features to the state to make it richer without altering the task. Beyond environment-side properties, we also examine several modeling choices: (a) SFT warmup or mid-training helps prevent catastrophic forgetting during RL but undermines generalization to domains that are not included in the mid-training datamix; and (b) turning on step-by-step thinking during RL, while not always improving in-domain performance, plays a crucial role in preserving generalization.
PDF71January 28, 2026