ChatPaper.aiChatPaper

자기 지식 증류를 통한 지속적 학습 가능성

Self-Distillation Enables Continual Learning

January 27, 2026
저자: Idan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal
cs.AI

초록

기존 능력의 저하 없이 새로운 기술과 지식을 습득할 수 있는 지속 학습은 파운데이션 모델의 근본적인 과제로 남아 있습니다. 온-정책 강화 학습은 망각을 줄일 수 있지만, 흔히 사용할 수 없는 명시적 보상 함수를 필요로 합니다. 전문가 데모를 통한 학습이라는 주요 대안은 현재 지도 미세 조정(SFT)이 주류를 이루고 있으며, 이는 본질적으로 오프-정책 방식입니다. 우리는 데모에서 직접 온-정책 학습을 가능하게 하는 간단한 방법인 자기 지식 증류 미세 조정(SDFT)을 소개합니다. SDFT는 데모 조건화 모델을 자체 교사로 활용하여 문맥 학습의 이점을 살리며, 새로운 기술을 습득하는 동시에 기존 능력을 보존하는 온-정책 훈련 신호를 생성합니다. 기술 학습 및 지식 습득 과제 전반에 걸쳐 SDFT는 SFT를 지속적으로 능가하며, 새로운 작업의 정확도를 높이는 동시에 치명적 망각을 크게 줄였습니다. 순차적 학습 실험에서 SDFT는 단일 모델이 성능 저하 없이 시간에 따라 여러 기술을 축적할 수 있게 하여, 데모 기반 지속 학습을 위한 실용적인 방안으로 온-정책 증류의 가능성을 입증했습니다.
English
Continual learning, enabling models to acquire new skills and knowledge without degrading existing capabilities, remains a fundamental challenge for foundation models. While on-policy reinforcement learning can reduce forgetting, it requires explicit reward functions that are often unavailable. Learning from expert demonstrations, the primary alternative, is dominated by supervised fine-tuning (SFT), which is inherently off-policy. We introduce Self-Distillation Fine-Tuning (SDFT), a simple method that enables on-policy learning directly from demonstrations. SDFT leverages in-context learning by using a demonstration-conditioned model as its own teacher, generating on-policy training signals that preserve prior capabilities while acquiring new skills. Across skill learning and knowledge acquisition tasks, SDFT consistently outperforms SFT, achieving higher new-task accuracy while substantially reducing catastrophic forgetting. In sequential learning experiments, SDFT enables a single model to accumulate multiple skills over time without performance regression, establishing on-policy distillation as a practical path to continual learning from demonstrations.
PDF11January 29, 2026