ChatPaper.aiChatPaper

Самостоятельная дистилляция обеспечивает непрерывное обучение

Self-Distillation Enables Continual Learning

January 27, 2026
Авторы: Idan Shenfeld, Mehul Damani, Jonas Hübotter, Pulkit Agrawal
cs.AI

Аннотация

Непрерывное обучение, позволяющее моделям приобретать новые навыки и знания без ухудшения существующих возможностей, остается фундаментальной проблемой для базовых моделей. Хотя обучение с подкреплением на основе собственной политики (on-policy) может уменьшить забывание, оно требует явных функций вознаграждения, которые часто недоступны. Основной альтернативой — обучением на демонстрациях экспертов — доминирует контролируемая тонкая настройка (SFT), которая по своей природе является обучением на основе чужой политики (off-policy). Мы представляем метод Само-Дистилляционной Тонкой Настройки (SDFT) — простой подход, который позволяет осуществлять обучение на собственной политике непосредственно на демонстрациях. SDFT использует контекстное обучение, применяя модель, обусловленную демонстрацией, в качестве собственного учителя, генерируя учебные сигналы на основе собственной политики, которые сохраняют прежние возможности, одновременно приобретая новые навыки. В задачах изучения навыков и приобретения знаний SDFT стабильно превосходит SFT, достигая более высокой точности на новых задачах при значительном снижении катастрофического забывания. В экспериментах с последовательным обучением SDFT позволяет одной модели накапливать множество навыков с течением времени без регрессии производительности, утверждая дистилляцию на собственной политике как практический путь к непрерывному обучению на демонстрациях.
English
Continual learning, enabling models to acquire new skills and knowledge without degrading existing capabilities, remains a fundamental challenge for foundation models. While on-policy reinforcement learning can reduce forgetting, it requires explicit reward functions that are often unavailable. Learning from expert demonstrations, the primary alternative, is dominated by supervised fine-tuning (SFT), which is inherently off-policy. We introduce Self-Distillation Fine-Tuning (SDFT), a simple method that enables on-policy learning directly from demonstrations. SDFT leverages in-context learning by using a demonstration-conditioned model as its own teacher, generating on-policy training signals that preserve prior capabilities while acquiring new skills. Across skill learning and knowledge acquisition tasks, SDFT consistently outperforms SFT, achieving higher new-task accuracy while substantially reducing catastrophic forgetting. In sequential learning experiments, SDFT enables a single model to accumulate multiple skills over time without performance regression, establishing on-policy distillation as a practical path to continual learning from demonstrations.
PDF11January 29, 2026