L'Auto-Distillazione Abilita l'Apprendimento Continuo

Abstract

L'apprendimento continuo, che consente ai modelli di acquisire nuove abilità e conoscenze senza degradare le capacità esistenti, rimane una sfida fondamentale per i modelli di base. Sebbene l'apprendimento per rinforzo on-policy possa ridurre la dimenticanza, richiede funzioni di ricompensa esplicite che spesso non sono disponibili. L'apprendimento da dimostrazioni di esperti, la principale alternativa, è dominato dalla messa a punto supervisionata (SFT), che è intrinsecamente off-policy. Introduciamo la messa a punto per auto-distillazione (SDFT), un metodo semplice che consente l'apprendimento on-policy direttamente dalle dimostrazioni. SDFT sfrutta l'apprendimento contestuale utilizzando un modello condizionato alla dimostrazione come proprio insegnante, generando segnali di addestramento on-policy che preservano le capacità pregresse mentre acquisiscono nuove abilità. In compiti di apprendimento di abilità e acquisizione di conoscenze, SDFT supera costantemente la SFT, raggiungendo una maggiore accuratezza nei nuovi compiti riducendo sostanzialmente la dimenticanza catastrofica. In esperimenti di apprendimento sequenziale, SDFT consente a un singolo modello di accumulare più abilità nel tempo senza regressioni delle prestazioni, stabilendo la distillazione on-policy come un percorso pratico per l'apprendimento continuo da dimostrazioni.

English

Continual learning, enabling models to acquire new skills and knowledge without degrading existing capabilities, remains a fundamental challenge for foundation models. While on-policy reinforcement learning can reduce forgetting, it requires explicit reward functions that are often unavailable. Learning from expert demonstrations, the primary alternative, is dominated by supervised fine-tuning (SFT), which is inherently off-policy. We introduce Self-Distillation Fine-Tuning (SDFT), a simple method that enables on-policy learning directly from demonstrations. SDFT leverages in-context learning by using a demonstration-conditioned model as its own teacher, generating on-policy training signals that preserve prior capabilities while acquiring new skills. Across skill learning and knowledge acquisition tasks, SDFT consistently outperforms SFT, achieving higher new-task accuracy while substantially reducing catastrophic forgetting. In sequential learning experiments, SDFT enables a single model to accumulate multiple skills over time without performance regression, establishing on-policy distillation as a practical path to continual learning from demonstrations.

L'Auto-Distillazione Abilita l'Apprendimento Continuo

Self-Distillation Enables Continual Learning

Abstract

Support