Een lokale perturbatietheorie voor cross-domein interferentie en herstel in multi-domein RL

Samenvatting

Versterkend leren (RL) post-training verbetert grote taalmodellen (LLMs) op individuele domeinen zoals wiskundig redeneren, codegeneratie, vraagbeantwoording en creatief schrijven (CW), maar training op één domein verslechtert vaak de prestaties op andere domeinen. Bestaande verklaringen op basis van catastrofaal vergeten of globaal gradientconflict zijn onvolledig: er kan aanzienlijke interferentie optreden, zelfs wanneer de gradiënten van het volledige model bijna orthogonaal zijn. Wij tonen aan dat single-domein RL leidt tot schaarse, kleinschalige parameteraanpassingen met zwakke overlap tussen de meest gewijzigde neuronen, terwijl verschillende domeinen nog steeds substantiële actieve berekeningstrajecten delen, waarbij de update-richtingen bepalen of ze synergetisch werken of conflicteren. Geleid door deze observatie bewijzen we onder een lokaal perturbatiemodel van multi-domein RL dat later-domein training een eerder domein voornamelijk schaadt via een tweede-orde schadeterm, die onder de waargenomen schaarse routestructuur concentreert in een laagdimensionale gedeelde conflictdeelruimte. Bovendien krimpt een korte domeinverversing de schadelijke component in deze deelruimte, wat selectief herstel mogelijk maakt met beperkte nevenschade. In overeenstemming met de theorie herstelt een korte Re-Math verversing na Code → Math → QA → CW de wiskundeprestaties van 57,66 naar 66,04, terwijl de prestaties op de andere domeinen grotendeels behouden blijven, wat leidt tot de beste gemiddelde score van 66,39. Naast verversing herstelt een training-vrije terugrol op een schaarse proxy-conflictcoördinatenset voor het Math-QA-paar de wiskundeprestaties gedeeltelijk, wat direct proxy-niveau bewijs levert voor gelokaliseerde schade. Deze resultaten bieden een gelokaliseerd mechanismeverslag van interferentie en herstel in multi-domein RL.

English

Reinforcement learning (RL) post-training improves large language models (LLMs) on individual domains such as mathematical reasoning, code generation, question answering, and creative writing (CW), but training on one domain often degrades performance on others. Existing explanations based on catastrophic forgetting or global gradient conflict are incomplete: substantial interference can occur even when full-model gradients are nearly orthogonal. We show that single-domain RL produces sparse, small-magnitude parameter edits with weak overlap among top-changed neurons, while different domains still share substantial active computation routes on which update directions determine whether they act synergistically or conflict. Guided by this observation, we prove under a local perturbation model of multi-domain RL that later-domain training harms an earlier domain mainly through a second-order damage term, which under the observed sparse route structure concentrates in a low-dimensional shared conflict subspace. Moreover, a short domain refresh contracts the harmful component on this subspace, enabling selective recovery with limited collateral damage. Consistent with the theory, a brief Re-Math refresh after Code rightarrow Math rightarrow QA rightarrow CW recovers Math from 57.66 to 66.04 while largely preserving performance on the other domains, yielding the best average score of 66.39. Beyond refresh, a training-free rollback on a sparse proxy conflict coordinate set for the Math-QA pair partially restores Math, providing direct proxy-level evidence for localized damage. These results provide a localized mechanistic account of interference and recovery in multi-domain RL.