MixSD: Gemischte kontextuelle Selbstdestillation zur Wissensinjektion

Zusammenfassung

Überwachtes Feintuning (SFT) wird häufig verwendet, um Sprachmodellen neues Wissen zu injizieren, führt jedoch oft zu einer Verschlechterung vortrainierter Fähigkeiten wie logischem Denken und der Leistung in allgemeinen Bereichen. Wir argumentieren, dass dieses Vergessen dadurch entsteht, dass die Feintuning-Ziele von Menschen oder externen Systemen von der autoregressiven Verteilung des Modells abweichen, wodurch der Optimierer gezwungen wird, Token-Sequenzen mit niedriger Wahrscheinlichkeit zu imitieren. Um dieses Problem zu lösen, schlagen wir MixSD vor, eine einfache, lehrfreie Methode zur verteilungsangepassten Wissensinjektion. Anstatt auf festen Zielen zu trainieren, konstruiert MixSD die Überwachung dynamisch, indem Token aus zwei Bedingungen des Basismodells selbst gemischt werden: einer Expertenbedingung, die die injizierte Tatsache im Kontext beobachtet, und einer naiven Bedingung, die die ursprüngliche A-priori-Wahrscheinlichkeit des Modells widerspiegelt. Die resultierenden Überwachungssequenzen bewahren das faktische Lernsignal, während sie wesentlich näher an der Verteilung des Basismodells bleiben. Wir evaluieren MixSD an zwei synthetischen Korpora, die wir konstruieren, um den Faktenabruf und den Erwerb arithmetischer Funktionen in einer kontrollierten Umgebung zu untersuchen, sowie an etablierten Benchmarks für offene faktenbasierte Fragenbeantwortung und Wissenbearbeitung. Über mehrere Modellgrößen und Einstellungen hinweg erzielt MixSD durchweg einen besseren Gedächtnis-Bewahrungskompromiss im Vergleich zu SFT und On-Policy-Selbstdestillations-Baselines, wobei es bis zu 100 % der zurückgehaltenen Fähigkeiten des Basismodells bewahrt und gleichzeitig eine nahezu perfekte Trainingsgenauigkeit beibehält, während Standard-SFT nur 1 % bewahrt. Wir zeigen weiterhin, dass MixSD unter dem Basismodell Überwachungsziele mit substanziell niedrigerem NLL (negative Log-Likelihood) erzeugt und schädliche Bewegungen entlang Fisher-sensitiver Parameterrichtungen reduziert. Diese Ergebnisse deuten darauf hin, dass die Ausrichtung der Überwachung auf die native Generierungsverteilung des Modells ein einfaches und effektives Prinzip für die Wissensinjektion ist, das katastrophales Vergessen mildert.

English

Supervised fine-tuning (SFT) is widely used to inject new knowledge into language models, but it often degrades pretrained capabilities such as reasoning and general-domain performance. We argue this forgetting arises because fine-tuning targets from humans or external systems diverge from the model's autoregressive distribution, forcing the optimizer to imitate low-probability token sequences. To address this problem, we propose MixSD, a simple external-teacher-free method for distribution-aligned knowledge injection. Instead of training on fixed targets, MixSD constructs supervision dynamically by mixing tokens from two conditionals of the base model itself: an expert conditional that observes the injected fact in context, and a naive conditional that reflects the model's original prior. The resulting supervision sequences preserve the factual learning signal while remaining substantially closer to the base model's distribution. We evaluate MixSD on two synthetic corpora that we construct to study factual recall and arithmetic function acquisition in a controlled setting, together with established benchmarks for open-domain factual question answering and knowledge editing. Across multiple model scales and settings, MixSD consistently achieves a better memorization-retention trade-off compared to SFT and on-policy self distillation baselines, retaining up to 100% of the base model's held-out capability while maintaining near-perfect training accuracy, whereas standard SFT retains as little as 1%. We further show that MixSD produces substantially lower-NLL supervision targets under the base model and reduces harmful movement along Fisher-sensitive parameter directions. These results suggest that aligning supervision with the model's native generation distribution is a simple and effective principle for knowledge injection that mitigates catastrophic forgetting.