MixSD: Смешанная Контекстуальная Самодистилляция для Инъекции Знаний

Аннотация

Контролируемая тонкая настройка (SFT) широко используется для внедрения новых знаний в языковые модели, однако она часто ухудшает предобученные способности, такие как рассуждение и производительность на общих предметных областях. Мы утверждаем, что это забывание возникает из-за того, что целевые сигналы от людей или внешних систем расходятся с авторегрессионным распределением модели, вынуждая оптимизатор имитировать последовательности токенов с низкой вероятностью. Для решения этой проблемы мы предлагаем MixSD — простой метод без внешнего учителя для согласованного с распределением внедрения знаний. Вместо обучения на фиксированных целях MixSD динамически формирует контрольный сигнал путем смешивания токенов из двух условных распределений самой базовой модели: экспертного условного, учитывающего вводимый факт в контексте, и наивного условного, отражающего исходный априорный приор модели. Получающиеся последовательности контрольного сигнала сохраняют сигнал обучения фактам, оставаясь при этом существенно ближе к распределению базовой модели. Мы оцениваем MixSD на двух синтетических корпусах, созданных для изучения воспроизведения фактов и усвоения арифметических функций в контролируемых условиях, а также на общепринятых эталонных тестах для вопросно-ответных систем по открытым фактам и редактирования знаний. На нескольких масштабах моделей и в различных условиях MixSD последовательно достигает лучшего компромисса между запоминанием и сохранением по сравнению с SFT и базовыми методами самодистилляции на политике, сохраняя до 100% отложенной способности базовой модели при почти идеальной точности обучения, тогда как стандартная SFT сохраняет всего 1%. Мы также показываем, что MixSD генерирует контрольные сигналы с существенно более низкой отрицательной логарифмической вероятностью (NLL) в рамках базовой модели и уменьшает вредное движение вдоль чувствительных по Фишеру направлений параметров. Эти результаты свидетельствуют о том, что согласование контрольного сигнала с исходным генеративным распределением модели является простым и эффективным принципом внедрения знаний, смягчающим катастрофическое забывание.

English

Supervised fine-tuning (SFT) is widely used to inject new knowledge into language models, but it often degrades pretrained capabilities such as reasoning and general-domain performance. We argue this forgetting arises because fine-tuning targets from humans or external systems diverge from the model's autoregressive distribution, forcing the optimizer to imitate low-probability token sequences. To address this problem, we propose MixSD, a simple external-teacher-free method for distribution-aligned knowledge injection. Instead of training on fixed targets, MixSD constructs supervision dynamically by mixing tokens from two conditionals of the base model itself: an expert conditional that observes the injected fact in context, and a naive conditional that reflects the model's original prior. The resulting supervision sequences preserve the factual learning signal while remaining substantially closer to the base model's distribution. We evaluate MixSD on two synthetic corpora that we construct to study factual recall and arithmetic function acquisition in a controlled setting, together with established benchmarks for open-domain factual question answering and knowledge editing. Across multiple model scales and settings, MixSD consistently achieves a better memorization-retention trade-off compared to SFT and on-policy self distillation baselines, retaining up to 100% of the base model's held-out capability while maintaining near-perfect training accuracy, whereas standard SFT retains as little as 1%. We further show that MixSD produces substantially lower-NLL supervision targets under the base model and reduces harmful movement along Fisher-sensitive parameter directions. These results suggest that aligning supervision with the model's native generation distribution is a simple and effective principle for knowledge injection that mitigates catastrophic forgetting.