MixSD: Autodestilación Contextual Mixta para la Inyección de Conocimiento

Resumen

El ajuste fino supervisado (SFT) se utiliza ampliamente para inyectar nuevo conocimiento en los modelos de lenguaje, pero a menudo degrada capacidades preentrenadas como el razonamiento y el rendimiento en dominios generales. Sostenemos que este olvido surge porque los objetivos de ajuste fino provenientes de humanos o sistemas externos divergen de la distribución autorregresiva del modelo, obligando al optimizador a imitar secuencias de tokens de baja probabilidad. Para abordar este problema, proponemos MixSD, un método simple sin maestro externo para la inyección de conocimiento alineada con la distribución. En lugar de entrenar sobre objetivos fijos, MixSD construye supervisión de forma dinámica mezclando tokens de dos condicionales del propio modelo base: un condicional experto que observa el hecho inyectado en contexto, y un condicional ingenuo que refleja la prioridad original del modelo. Las secuencias de supervisión resultantes preservan la señal de aprendizaje del hecho mientras permanecen sustancialmente más cercanas a la distribución del modelo base. Evaluamos MixSD en dos corpus sintéticos que construimos para estudiar el recuerdo factual y la adquisición de funciones aritméticas en un entorno controlado, junto con puntos de referencia establecidos para la respuesta a preguntas factuales de dominio abierto y la edición de conocimiento. A través de múltiples escalas y configuraciones de modelo, MixSD logra consistentemente un mejor compromiso memorización-retención en comparación con los puntos de referencia de SFT y autodestilación on-policy, reteniendo hasta el 100% de la capacidad no utilizada del modelo base mientras mantiene una precisión de entrenamiento casi perfecta, mientras que el SFT estándar retiene tan solo el 1%. Además, mostramos que MixSD produce objetivos de supervisión con NLL sustancialmente menor bajo el modelo base y reduce el movimiento dañino a lo largo de direcciones de parámetros sensibles a Fisher. Estos resultados sugieren que alinear la supervisión con la distribución de generación nativa del modelo es un principio simple y efectivo para la inyección de conocimiento que mitiga el olvido catastrófico.

English

Supervised fine-tuning (SFT) is widely used to inject new knowledge into language models, but it often degrades pretrained capabilities such as reasoning and general-domain performance. We argue this forgetting arises because fine-tuning targets from humans or external systems diverge from the model's autoregressive distribution, forcing the optimizer to imitate low-probability token sequences. To address this problem, we propose MixSD, a simple external-teacher-free method for distribution-aligned knowledge injection. Instead of training on fixed targets, MixSD constructs supervision dynamically by mixing tokens from two conditionals of the base model itself: an expert conditional that observes the injected fact in context, and a naive conditional that reflects the model's original prior. The resulting supervision sequences preserve the factual learning signal while remaining substantially closer to the base model's distribution. We evaluate MixSD on two synthetic corpora that we construct to study factual recall and arithmetic function acquisition in a controlled setting, together with established benchmarks for open-domain factual question answering and knowledge editing. Across multiple model scales and settings, MixSD consistently achieves a better memorization-retention trade-off compared to SFT and on-policy self distillation baselines, retaining up to 100% of the base model's held-out capability while maintaining near-perfect training accuracy, whereas standard SFT retains as little as 1%. We further show that MixSD produces substantially lower-NLL supervision targets under the base model and reduces harmful movement along Fisher-sensitive parameter directions. These results suggest that aligning supervision with the model's native generation distribution is a simple and effective principle for knowledge injection that mitigates catastrophic forgetting.