自己蒸留による連続学習の実現
Self-Distillation Enables Continual Learning
January 27, 2026
著者: Idan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal
cs.AI
要旨
継続学習、すなわちモデルが既存の能力を劣化させることなく新たなスキルや知識を獲得する能力は、基盤モデルにおける根本的な課題であり続けている。方策オン型強化学習は忘却を軽減できるが、多くの場合利用不可能な明示的な報酬関数を必要とする。専門家による実演からの学習という主要な代替手段は、本質的に方策オフ型である教師ありファインチューニング(SFT)が主流である。本研究では、実演データから直接方策オン型学習を可能にする簡便な手法、自己蒸留ファインチューニング(SDFT)を提案する。SDFTは、実演条件付きモデルを自身の教師として利用することで文脈内学習を活用し、新たなスキルを獲得しながら事前の能力を保持する方策オンレベルの訓練信号を生成する。スキル学習と知識獲得タスクにわたる実験において、SDFTは一貫してSFTを上回り、新規タスクの精度を高めつつ、破滅的な忘却を大幅に軽減した。逐次学習実験では、SDFTにより単一モデルが性能の後退なく時間の経過とともに複数のスキルを蓄積できることが示され、実演からの継続学習に向けた実用的な道筋として方策オン型蒸留の有効性が確立された。
English
Continual learning, enabling models to acquire new skills and knowledge without degrading existing capabilities, remains a fundamental challenge for foundation models. While on-policy reinforcement learning can reduce forgetting, it requires explicit reward functions that are often unavailable. Learning from expert demonstrations, the primary alternative, is dominated by supervised fine-tuning (SFT), which is inherently off-policy. We introduce Self-Distillation Fine-Tuning (SDFT), a simple method that enables on-policy learning directly from demonstrations. SDFT leverages in-context learning by using a demonstration-conditioned model as its own teacher, generating on-policy training signals that preserve prior capabilities while acquiring new skills. Across skill learning and knowledge acquisition tasks, SDFT consistently outperforms SFT, achieving higher new-task accuracy while substantially reducing catastrophic forgetting. In sequential learning experiments, SDFT enables a single model to accumulate multiple skills over time without performance regression, establishing on-policy distillation as a practical path to continual learning from demonstrations.