Eine lokale Störungstheorie für domänenübergreifende Interferenz und Wiederherstellung im Multi-Domain Reinforcement Learning

Zusammenfassung

Das Post-Training durch Verstärkungslernen (Reinforcement Learning, RL) verbessert große Sprachmodelle (Large Language Models, LLMs) in einzelnen Domänen wie mathematischem Denken, Codegenerierung, Fragenbeantwortung und kreativem Schreiben (Creative Writing, CW), jedoch verschlechtert das Training in einer Domäne häufig die Leistung in anderen. Bestehende Erklärungen auf Basis von katastrophalem Vergessen oder globalem Gradientenkonflikt sind unvollständig: Erhebliche Interferenzen können selbst dann auftreten, wenn die Gradienten des gesamten Modells nahezu orthogonal sind. Wir zeigen, dass Einzeldomänen-RL spärliche Parametereingriffe mit geringer Größenordnung erzeugt, die eine schwache Überlappung zwischen den am stärksten veränderten Neuronen aufweisen, während verschiedene Domänen dennoch erhebliche aktive Berechnungspfade gemeinsam nutzen, bei denen die Aktualisierungsrichtungen bestimmen, ob sie synergistisch wirken oder in Konflikt geraten. Unter der Leitung dieser Beobachtung beweisen wir in einem lokalen Störungsmodell des Multi-Domänen-RL, dass das Training in späteren Domänen eine frühere Domäne hauptsächlich durch einen Schadensterm zweiter Ordnung schädigt, der sich unter der beobachteten spärlichen Pfadstruktur in einem niedrigdimensionalen gemeinsamen Konflikt-Unterraum konzentriert. Darüber hinaus zieht eine kurze Domänenauffrischung die schädliche Komponente in diesem Unterraum zusammen, was eine selektive Wiederherstellung mit begrenzten Kollateralschäden ermöglicht. In Übereinstimmung mit der Theorie erholt eine kurze Re-Math-Auffrischung nach Code → Math → QA → CW die Mathematik von 57,66 auf 66,04, während die Leistung in den anderen Domänen weitgehend erhalten bleibt, was die beste Durchschnittspunktzahl von 66,39 ergibt. Über die Auffrischung hinaus stellt ein trainingsfreies Zurücksetzen auf einen spärlichen Proxy-Konfliktkoordinatensatz für das Math-QA-Paar die Mathematik teilweise wieder her, was direkte Nachweise auf Proxy-Ebene für lokalisierte Schäden liefert. Diese Ergebnisse liefern eine lokalisierte mechanistische Erklärung für Interferenz und Wiederherstellung im Multi-Domänen-RL.

English

Reinforcement learning (RL) post-training improves large language models (LLMs) on individual domains such as mathematical reasoning, code generation, question answering, and creative writing (CW), but training on one domain often degrades performance on others. Existing explanations based on catastrophic forgetting or global gradient conflict are incomplete: substantial interference can occur even when full-model gradients are nearly orthogonal. We show that single-domain RL produces sparse, small-magnitude parameter edits with weak overlap among top-changed neurons, while different domains still share substantial active computation routes on which update directions determine whether they act synergistically or conflict. Guided by this observation, we prove under a local perturbation model of multi-domain RL that later-domain training harms an earlier domain mainly through a second-order damage term, which under the observed sparse route structure concentrates in a low-dimensional shared conflict subspace. Moreover, a short domain refresh contracts the harmful component on this subspace, enabling selective recovery with limited collateral damage. Consistent with the theory, a brief Re-Math refresh after Code rightarrow Math rightarrow QA rightarrow CW recovers Math from 57.66 to 66.04 while largely preserving performance on the other domains, yielding the best average score of 66.39. Beyond refresh, a training-free rollback on a sparse proxy conflict coordinate set for the Math-QA pair partially restores Math, providing direct proxy-level evidence for localized damage. These results provide a localized mechanistic account of interference and recovery in multi-domain RL.