MixSD: Autodestilação Contextual Mista para Injeção de Conhecimento

Resumo

O ajuste fino supervisionado (SFT) é amplamente utilizado para injetar novos conhecimentos em modelos de linguagem, mas frequentemente degrada capacidades pré-treinadas, como raciocínio e desempenho em domínios gerais. Argumentamos que esse esquecimento surge porque os alvos de ajuste fino provenientes de humanos ou sistemas externos divergem da distribuição autorregressiva do modelo, forçando o otimizador a imitar sequências de tokens de baixa probabilidade. Para resolver esse problema, propomos o MixSD, um método simples sem professor externo para injeção de conhecimento alinhada à distribuição. Em vez de treinar em alvos fixos, o MixSD constrói supervisão dinamicamente misturando tokens de duas condicionais do próprio modelo base: uma condicional especialista que observa o fato injetado em contexto, e uma condicional ingênua que reflete a prioridade original do modelo. As sequências de supervisão resultantes preservam o sinal de aprendizado factual enquanto permanecem substancialmente mais próximas da distribuição do modelo base. Avaliamos o MixSD em dois corpora sintéticos que construímos para estudar a recuperação factual e a aquisição de funções aritméticas em um ambiente controlado, juntamente com benchmarks estabelecidos para perguntas e respostas factuais de domínio aberto e edição de conhecimento. Em múltiplas escalas e configurações de modelo, o MixSD alcança consistentemente um melhor compromisso memorização-retenção em comparação com o SFT e as linhas de base de autodestilação on-policy, retendo até 100% da capacidade mantida do modelo base enquanto mantém uma precisão de treinamento quase perfeita, enquanto o SFT padrão retém apenas 1%. Mostramos ainda que o MixSD produz alvos de supervisão com NLL substancialmente menor sob o modelo base e reduz o movimento prejudicial ao longo de direções de parâmetros sensíveis a Fisher. Esses resultados sugerem que alinhar a supervisão com a distribuição de geração nativa do modelo é um princípio simples e eficaz para injeção de conhecimento que mitiga o esquecimento catastrófico.

English

Supervised fine-tuning (SFT) is widely used to inject new knowledge into language models, but it often degrades pretrained capabilities such as reasoning and general-domain performance. We argue this forgetting arises because fine-tuning targets from humans or external systems diverge from the model's autoregressive distribution, forcing the optimizer to imitate low-probability token sequences. To address this problem, we propose MixSD, a simple external-teacher-free method for distribution-aligned knowledge injection. Instead of training on fixed targets, MixSD constructs supervision dynamically by mixing tokens from two conditionals of the base model itself: an expert conditional that observes the injected fact in context, and a naive conditional that reflects the model's original prior. The resulting supervision sequences preserve the factual learning signal while remaining substantially closer to the base model's distribution. We evaluate MixSD on two synthetic corpora that we construct to study factual recall and arithmetic function acquisition in a controlled setting, together with established benchmarks for open-domain factual question answering and knowledge editing. Across multiple model scales and settings, MixSD consistently achieves a better memorization-retention trade-off compared to SFT and on-policy self distillation baselines, retaining up to 100% of the base model's held-out capability while maintaining near-perfect training accuracy, whereas standard SFT retains as little as 1%. We further show that MixSD produces substantially lower-NLL supervision targets under the base model and reduces harmful movement along Fisher-sensitive parameter directions. These results suggest that aligning supervision with the model's native generation distribution is a simple and effective principle for knowledge injection that mitigates catastrophic forgetting.