L'auto-distillation permet l'apprentissage continu
Self-Distillation Enables Continual Learning
January 27, 2026
papers.authors: Idan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal
cs.AI
papers.abstract
L'apprentissage continu, qui permet aux modèles d'acquérir de nouvelles compétences et connaissances sans dégrader leurs capacités existantes, reste un défi fondamental pour les modèles de fondation. Bien que l'apprentissage par renforcement sur politique puisse réduire l'oubli, il nécessite des fonctions de récompense explicites souvent indisponibles. L'apprentissage à partir de démonstrations d'expert, l'alternative principale, est dominé par le réglage fin supervisé (SFT), qui est intrinsèquement hors politique. Nous présentons le réglage fin par autodistillation (SDFT), une méthode simple permettant un apprentissage sur politique directement à partir de démonstrations. SDFT exploite l'apprentissage en contexte en utilisant un modèle conditionné par une démonstration comme son propre enseignant, générant ainsi des signaux d'entraînement sur politique qui préservent les capacités antérieures tout en acquérant de nouvelles compétences. Sur des tâches d'acquisition de compétences et de connaissances, SDFT surpasse systématiquement le SFT, atteignant une meilleure précision sur les nouvelles tâches tout en réduisant substantiellement l'oubli catastrophique. Dans des expériences d'apprentissage séquentiel, SDFT permet à un modèle unique d'accumuler plusieurs compétences au fil du temps sans régression de performance, établissant la distillation sur politique comme une voie pratique pour l'apprentissage continu à partir de démonstrations.
English
Continual learning, enabling models to acquire new skills and knowledge without degrading existing capabilities, remains a fundamental challenge for foundation models. While on-policy reinforcement learning can reduce forgetting, it requires explicit reward functions that are often unavailable. Learning from expert demonstrations, the primary alternative, is dominated by supervised fine-tuning (SFT), which is inherently off-policy. We introduce Self-Distillation Fine-Tuning (SDFT), a simple method that enables on-policy learning directly from demonstrations. SDFT leverages in-context learning by using a demonstration-conditioned model as its own teacher, generating on-policy training signals that preserve prior capabilities while acquiring new skills. Across skill learning and knowledge acquisition tasks, SDFT consistently outperforms SFT, achieving higher new-task accuracy while substantially reducing catastrophic forgetting. In sequential learning experiments, SDFT enables a single model to accumulate multiple skills over time without performance regression, establishing on-policy distillation as a practical path to continual learning from demonstrations.