Une théorie de perturbation locale pour l'interférence et la récupération inter-domaines dans l'apprentissage par renforcement multi-domaines

Résumé

L'apprentissage par renforcement (AR) post-entraînement améliore les grands modèles de langage (GML) sur des domaines individuels tels que le raisonnement mathématique, la génération de code, la réponse aux questions et l'écriture créative (ÉC), mais l'entraînement sur un domaine dégrade souvent les performances sur d'autres. Les explications existantes basées sur l'oubli catastrophique ou le conflit global de gradient sont incomplètes : des interférences substantielles peuvent se produire même lorsque les gradients du modèle entier sont presque orthogonaux. Nous montrons que l'AR sur un seul domaine produit des modifications de paramètres clairsemées et de faible amplitude avec un faible chevauchement entre les neurones les plus modifiés, tandis que différents domaines partagent encore des voies de calcul actives substantielles sur lesquelles les directions de mise à jour déterminent si elles agissent de manière synergique ou conflictuelle. Guidés par cette observation, nous prouvons sous un modèle de perturbation locale de l'AR multi-domaine que l'entraînement sur un domaine ultérieur nuit à un domaine antérieur principalement via un terme de dommage du second ordre, qui, sous la structure de voie clairsemée observée, se concentre dans un sous-espace de conflit partagé de faible dimension. De plus, un court rafraîchissement de domaine contracte la composante nuisible sur ce sous-espace, permettant une récupération sélective avec des dommages collatéraux limités. Conformément à la théorie, un bref rafraîchissement Re-Math après Code → Math → QA → CW récupère Math de 57,66 à 66,04 tout en préservant largement les performances sur les autres domaines, obtenant le meilleur score moyen de 66,39. Au-delà du rafraîchissement, un retour en arrière sans entraînement sur un ensemble clairsemé de coordonnées de conflit proxy pour la paire Math-QA restaure partiellement Math, fournissant une preuve directe au niveau proxy de dommages localisés. Ces résultats fournissent un compte rendu mécaniste localisé de l'interférence et de la récupération dans l'AR multi-domaine.

English

Reinforcement learning (RL) post-training improves large language models (LLMs) on individual domains such as mathematical reasoning, code generation, question answering, and creative writing (CW), but training on one domain often degrades performance on others. Existing explanations based on catastrophic forgetting or global gradient conflict are incomplete: substantial interference can occur even when full-model gradients are nearly orthogonal. We show that single-domain RL produces sparse, small-magnitude parameter edits with weak overlap among top-changed neurons, while different domains still share substantial active computation routes on which update directions determine whether they act synergistically or conflict. Guided by this observation, we prove under a local perturbation model of multi-domain RL that later-domain training harms an earlier domain mainly through a second-order damage term, which under the observed sparse route structure concentrates in a low-dimensional shared conflict subspace. Moreover, a short domain refresh contracts the harmful component on this subspace, enabling selective recovery with limited collateral damage. Consistent with the theory, a brief Re-Math refresh after Code rightarrow Math rightarrow QA rightarrow CW recovers Math from 57.66 to 66.04 while largely preserving performance on the other domains, yielding the best average score of 66.39. Beyond refresh, a training-free rollback on a sparse proxy conflict coordinate set for the Math-QA pair partially restores Math, providing direct proxy-level evidence for localized damage. These results provide a localized mechanistic account of interference and recovery in multi-domain RL.