Uma Teoria de Perturbação Local para Interferência e Recuperação entre Domínios em RL Multi-Domínio

Resumo

O aprendizado por reforço (RL) pós-treinamento melhora modelos de linguagem de grande escala (LLMs) em domínios individuais, como raciocínio matemático, geração de código, resposta a perguntas e escrita criativa (CW), mas o treinamento em um domínio frequentemente degrada o desempenho em outros. Explicações existentes baseadas em esquecimento catastrófico ou conflito global de gradientes são incompletas: interferência substancial pode ocorrer mesmo quando os gradientes do modelo completo são quase ortogonais. Mostramos que o RL em domínio único produz edições de parâmetros esparsas e de pequena magnitude, com fraca sobreposição entre os neurônios mais alterados, enquanto diferentes domínios ainda compartilham rotas computacionais ativas substanciais nas quais as direções de atualização determinam se atuam de forma sinérgica ou conflituosa. Guiados por essa observação, provamos, sob um modelo de perturbação local de RL multi-domínio, que o treinamento em um domínio posterior prejudica um domínio anterior principalmente por meio de um termo de dano de segunda ordem, que, sob a estrutura de rota esparsa observada, se concentra em um subespaço de conflito compartilhado de baixa dimensionalidade. Além disso, uma breve atualização do domínio contrai o componente prejudicial nesse subespaço, permitindo uma recuperação seletiva com danos colaterais limitados. Consistente com a teoria, uma breve atualização Re-Math após Digitação → Matemática → QA → CW recupera Matemática de 57,66 para 66,04, preservando amplamente o desempenho nos outros domínios, resultando no melhor escore médio de 66,39. Além da atualização, um rollback livre de treinamento em um conjunto esparso de coordenadas de conflito proxy para o par Matemática-QA restaura parcialmente Matemática, fornecendo evidência direta em nível proxy para danos localizados. Esses resultados fornecem uma explicação mecanicista localizada da interferência e recuperação em RL multi-domínio.

English

Reinforcement learning (RL) post-training improves large language models (LLMs) on individual domains such as mathematical reasoning, code generation, question answering, and creative writing (CW), but training on one domain often degrades performance on others. Existing explanations based on catastrophic forgetting or global gradient conflict are incomplete: substantial interference can occur even when full-model gradients are nearly orthogonal. We show that single-domain RL produces sparse, small-magnitude parameter edits with weak overlap among top-changed neurons, while different domains still share substantial active computation routes on which update directions determine whether they act synergistically or conflict. Guided by this observation, we prove under a local perturbation model of multi-domain RL that later-domain training harms an earlier domain mainly through a second-order damage term, which under the observed sparse route structure concentrates in a low-dimensional shared conflict subspace. Moreover, a short domain refresh contracts the harmful component on this subspace, enabling selective recovery with limited collateral damage. Consistent with the theory, a brief Re-Math refresh after Code rightarrow Math rightarrow QA rightarrow CW recovers Math from 57.66 to 66.04 while largely preserving performance on the other domains, yielding the best average score of 66.39. Beyond refresh, a training-free rollback on a sparse proxy conflict coordinate set for the Math-QA pair partially restores Math, providing direct proxy-level evidence for localized damage. These results provide a localized mechanistic account of interference and recovery in multi-domain RL.