Локальная теория возмущений для междоменной интерференции и восстановления в многодоменном обучении с подкреплением

Аннотация

Обучение с подкреплением (RL) после предварительного обучения улучшает большие языковые модели (LLM) в отдельных областях, таких как математические рассуждения, генерация кода, ответы на вопросы и творческое письмо, однако обучение на одной области часто снижает производительность на других. Существующие объяснения, основанные на катастрофическом забывании или глобальном конфликте градиентов, являются неполными: существенное вмешательство может происходить даже тогда, когда полные градиенты модели почти ортогональны. Мы показываем, что однодоменное RL создает разреженные модификации параметров с малой величиной и слабым перекрытием среди наиболее изменяемых нейронов, при этом разные области по-прежнему имеют значительные общие активные вычислительные пути, на которых направления обновления определяют, будут ли они действовать синергетически или конфликтовать. Основываясь на этом наблюдении, мы доказываем в рамках модели локальных возмущений для многодоменного RL, что обучение на более позднем домене вредит более раннему домену в основном через член повреждения второго порядка, который при наблюдаемой разреженной структуре путей концентрируется в низкоразмерном общем конфликтном подпространстве. Кроме того, краткое обновление домена сжимает вредную компоненту в этом подпространстве, обеспечивая избирательное восстановление с ограниченным сопутствующим ущербом. В соответствии с теорией, краткое обновление Math после последовательности Code → Math → QA → CW восстанавливает Math с 57.66 до 66.04, в значительной степени сохраняя производительность на других областях, что дает наилучший средний балл 66.39. Помимо обновления, откат без обучения на разреженном наборе прокси-координат конфликта для пары Math-QA частично восстанавливает Math, предоставляя прямые прокси-уровневые доказательства локализованного повреждения. Эти результаты дают локализованное механистическое объяснение интерференции и восстановления в многодоменном RL.

English

Reinforcement learning (RL) post-training improves large language models (LLMs) on individual domains such as mathematical reasoning, code generation, question answering, and creative writing (CW), but training on one domain often degrades performance on others. Existing explanations based on catastrophic forgetting or global gradient conflict are incomplete: substantial interference can occur even when full-model gradients are nearly orthogonal. We show that single-domain RL produces sparse, small-magnitude parameter edits with weak overlap among top-changed neurons, while different domains still share substantial active computation routes on which update directions determine whether they act synergistically or conflict. Guided by this observation, we prove under a local perturbation model of multi-domain RL that later-domain training harms an earlier domain mainly through a second-order damage term, which under the observed sparse route structure concentrates in a low-dimensional shared conflict subspace. Moreover, a short domain refresh contracts the harmful component on this subspace, enabling selective recovery with limited collateral damage. Consistent with the theory, a brief Re-Math refresh after Code rightarrow Math rightarrow QA rightarrow CW recovers Math from 57.66 to 66.04 while largely preserving performance on the other domains, yielding the best average score of 66.39. Beyond refresh, a training-free rollback on a sparse proxy conflict coordinate set for the Math-QA pair partially restores Math, providing direct proxy-level evidence for localized damage. These results provide a localized mechanistic account of interference and recovery in multi-domain RL.