MixSD : Auto-distillation contextuelle mixte pour l'injection de connaissances

Résumé

L’ajustement supervisé fin (SFT) est largement utilisé pour injecter de nouvelles connaissances dans les modèles de langage, mais il dégrade souvent les capacités pré-entraînées, telles que le raisonnement et la performance dans les domaines généraux. Nous avançons que cet oubli provient du fait que les cibles d’ajustement issues d’humains ou de systèmes externes divergent de la distribution autorégressive du modèle, forçant l’optimiseur à imiter des séquences de tokens à faible probabilité. Pour résoudre ce problème, nous proposons MixSD, une méthode simple sans enseignant externe pour l’injection de connaissances alignée sur la distribution. Au lieu de s’entraîner sur des cibles fixes, MixSD construit dynamiquement une supervision en mélangeant des tokens issus de deux conditionnelles du modèle de base lui-même : une conditionnelle experte qui observe le fait injecté en contexte, et une conditionnelle naïve qui reflète l’a priori original du modèle. Les séquences de supervision résultantes préservent le signal d’apprentissage factuel tout en restant nettement plus proches de la distribution du modèle de base. Nous évaluons MixSD sur deux corpus synthétiques que nous construisons pour étudier le rappel factuel et l’acquisition de fonctions arithmétiques dans un cadre contrôlé, ainsi que sur des références établies pour la réponse à des questions factuelles en domaine ouvert et l’édition de connaissances. À plusieurs échelles de modèle et configurations, MixSD atteint constamment un meilleur compromis mémorisation-rétention par rapport aux références SFT et à la distillation sur politique propre, conservant jusqu’à 100 % de la capacité hors distribution du modèle de base tout en maintenant une précision d’entraînement quasi parfaite, alors que le SFT standard en conserve aussi peu que 1 %. Nous montrons en outre que MixSD produit des cibles de supervision de bien moindre log-vraisemblance négative sous le modèle de base et réduit les mouvements nuisibles le long de directions paramétriques sensibles à la métrique de Fisher. Ces résultats suggèrent qu’aligner la supervision avec la distribution générative native du modèle est un principe simple et efficace pour l’injection de connaissances qui atténue l’oubli catastrophique.

English

Supervised fine-tuning (SFT) is widely used to inject new knowledge into language models, but it often degrades pretrained capabilities such as reasoning and general-domain performance. We argue this forgetting arises because fine-tuning targets from humans or external systems diverge from the model's autoregressive distribution, forcing the optimizer to imitate low-probability token sequences. To address this problem, we propose MixSD, a simple external-teacher-free method for distribution-aligned knowledge injection. Instead of training on fixed targets, MixSD constructs supervision dynamically by mixing tokens from two conditionals of the base model itself: an expert conditional that observes the injected fact in context, and a naive conditional that reflects the model's original prior. The resulting supervision sequences preserve the factual learning signal while remaining substantially closer to the base model's distribution. We evaluate MixSD on two synthetic corpora that we construct to study factual recall and arithmetic function acquisition in a controlled setting, together with established benchmarks for open-domain factual question answering and knowledge editing. Across multiple model scales and settings, MixSD consistently achieves a better memorization-retention trade-off compared to SFT and on-policy self distillation baselines, retaining up to 100% of the base model's held-out capability while maintaining near-perfect training accuracy, whereas standard SFT retains as little as 1%. We further show that MixSD produces substantially lower-NLL supervision targets under the base model and reduces harmful movement along Fisher-sensitive parameter directions. These results suggest that aligning supervision with the model's native generation distribution is a simple and effective principle for knowledge injection that mitigates catastrophic forgetting.