ChatPaper.aiChatPaper

Снижение налога на обобщение: исследование кросс-доменной генерализации при обучении с подкреплением для агентов на основе больших языковых моделей

Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

January 26, 2026
Авторы: Zhihan Liu, Lin Guan, Yixin Nie, Kai Zhang, Zhuoqun Hao, Lin Chen, Asli Celikyilmaz, Zhaoran Wang, Na Zhang
cs.AI

Аннотация

Универсальные LLM-агенты часто проходят пост-обучение на узком наборе сред, но развертываются в гораздо более широких, невиданных ранее доменах. В данной работе мы исследуем проблему пост-обучения агентов в условиях, когда итоговые тестовые домены неизвестны. В частности, мы анализируем, какие свойства сред обучения с подкреплением (RL) и варианты моделирования оказывают наибольшее влияние на производительность вне домена. Во-первых, мы выявляем две оси свойств среды, которые сильно коррелируют с кросс-доменной обобщающей способностью: (i) насыщенность состояния информацией, то есть объем информации, которую агенту необходимо обработать из состояния, и (ii) сложность планирования, оцениваемая через достижимость цели и длину траектории при базовой политике. Примечательно, что реалистичность домена и текстовое сходство не являются основными факторами; например, простой домен Sokoban в виде сетки приводит к еще более сильному обобщению в SciWorld, чем более реалистичный ALFWorld. Мотивированные этими выводами, мы далее показываем, что увеличение только насыщенности состояния информацией уже может эффективно повысить кросс-доменную устойчивость. Мы предлагаем метод рандомизации, который требует малых затрат и широко применим: добавление в состояние небольшого количества отвлекающих, не связанных с целью признаков, чтобы сделать его богаче без изменения задачи. Помимо свойств самой среды, мы также исследуем несколько вариантов моделирования: (a) предварительное обучение с учителем (SFT) или дообучение в середине процесса помогает предотвратить катастрофическое забывание во время RL, но подрывает обобщение на домены, не включенные в смесь данных для дообучения; и (b) включение пошагового мышления во время RL, хотя и не всегда улучшает производительность внутри домена, играет ключевую роль в сохранении способности к обобщению.
English
Generalist LLM agents are often post-trained on a narrow set of environments but deployed across far broader, unseen domains. In this work, we investigate the challenge of agentic post-training when the eventual test domains are unknown. Specifically, we analyze which properties of reinforcement learning (RL) environments and modeling choices have the greatest influence on out-of-domain performance. First, we identify two environment axes that strongly correlate with cross-domain generalization: (i) state information richness, i.e., the amount of information for the agent to process from the state, and (ii) planning complexity, estimated via goal reachability and trajectory length under a base policy. Notably, domain realism and text-level similarity are not the primary factors; for instance, the simple grid-world domain Sokoban leads to even stronger generalization in SciWorld than the more realistic ALFWorld. Motivated by these findings, we further show that increasing state information richness alone can already effectively improve cross-domain robustness. We propose a randomization technique, which is low-overhead and broadly applicable: add small amounts of distractive goal-irrelevant features to the state to make it richer without altering the task. Beyond environment-side properties, we also examine several modeling choices: (a) SFT warmup or mid-training helps prevent catastrophic forgetting during RL but undermines generalization to domains that are not included in the mid-training datamix; and (b) turning on step-by-step thinking during RL, while not always improving in-domain performance, plays a crucial role in preserving generalization.
PDF71January 28, 2026