La Auto-Distilación Permite el Aprendizaje Continuo
Self-Distillation Enables Continual Learning
January 27, 2026
Autores: Idan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal
cs.AI
Resumen
El aprendizaje continuo, que permite a los modelos adquirir nuevas habilidades y conocimientos sin degradar las capacidades existentes, sigue siendo un desafío fundamental para los modelos de base. Si bien el aprendizaje por refuerzo *on-policy* puede reducir el olvido, requiere funciones de recompensa explícitas que a menudo no están disponibles. El aprendizaje a partir de demostraciones de expertos, la alternativa principal, está dominado por el ajuste fino supervisado (SFT), que es inherentemente *off-policy*. Introducimos el Ajuste Fino por Auto-Destilación (SDFT), un método simple que permite el aprendizaje *on-policy* directamente a partir de demostraciones. SDFT aprovecha el aprendizaje en contexto utilizando un modelo condicionado por la demostración como su propio profesor, generando señales de entrenamiento *on-policy* que preservan las capacidades previas mientras adquiere nuevas habilidades. En tareas de aprendizaje de habilidades y adquisición de conocimientos, SDFT supera consistentemente a SFT, logrando una mayor precisión en nuevas tareas mientras reduce sustancialmente el olvido catastrófico. En experimentos de aprendizaje secuencial, SDFT permite que un único modelo acumule múltiples habilidades a lo largo del tiempo sin regresión en el rendimiento, estableciendo la destilación *on-policy* como una vía práctica para el aprendizaje continuo a partir de demostraciones.
English
Continual learning, enabling models to acquire new skills and knowledge without degrading existing capabilities, remains a fundamental challenge for foundation models. While on-policy reinforcement learning can reduce forgetting, it requires explicit reward functions that are often unavailable. Learning from expert demonstrations, the primary alternative, is dominated by supervised fine-tuning (SFT), which is inherently off-policy. We introduce Self-Distillation Fine-Tuning (SDFT), a simple method that enables on-policy learning directly from demonstrations. SDFT leverages in-context learning by using a demonstration-conditioned model as its own teacher, generating on-policy training signals that preserve prior capabilities while acquiring new skills. Across skill learning and knowledge acquisition tasks, SDFT consistently outperforms SFT, achieving higher new-task accuracy while substantially reducing catastrophic forgetting. In sequential learning experiments, SDFT enables a single model to accumulate multiple skills over time without performance regression, establishing on-policy distillation as a practical path to continual learning from demonstrations.