A Auto-Distilação Permite a Aprendizagem Contínua

Resumo

A aprendizagem contínua, que permite aos modelos adquirir novas competências e conhecimentos sem degradar capacidades existentes, permanece um desafio fundamental para os modelos de base. Embora a aprendizagem por reforço on-policy possa reduzir o esquecimento, esta requer funções de recompensa explícitas que frequentemente não estão disponíveis. A aprendizagem a partir de demonstrações de especialistas, a principal alternativa, é dominada pelo ajuste fino supervisionado (SFT), que é inerentemente off-policy. Apresentamos o Ajuste Fino por Auto-Destilação (SDFT), um método simples que permite a aprendizagem on-policy diretamente a partir de demonstrações. O SDFT aproveita a aprendizagem contextual utilizando um modelo condicionado por demonstrações como seu próprio professor, gerando sinais de treino on-policy que preservam capacidades anteriores enquanto adquire novas competências. Em tarefas de aprendizagem de competências e aquisição de conhecimento, o SDFT supera consistentemente o SFT, alcançando maior precisão em novas tarefas enquanto reduz substancialmente o esquecimento catastrófico. Em experiências de aprendizagem sequencial, o SDFT permite que um único modelo acumule múltiplas competências ao longo do tempo sem regressão de desempenho, estabelecendo a destilação on-policy como um caminho prático para a aprendizagem contínua a partir de demonstrações.

English

Continual learning, enabling models to acquire new skills and knowledge without degrading existing capabilities, remains a fundamental challenge for foundation models. While on-policy reinforcement learning can reduce forgetting, it requires explicit reward functions that are often unavailable. Learning from expert demonstrations, the primary alternative, is dominated by supervised fine-tuning (SFT), which is inherently off-policy. We introduce Self-Distillation Fine-Tuning (SDFT), a simple method that enables on-policy learning directly from demonstrations. SDFT leverages in-context learning by using a demonstration-conditioned model as its own teacher, generating on-policy training signals that preserve prior capabilities while acquiring new skills. Across skill learning and knowledge acquisition tasks, SDFT consistently outperforms SFT, achieving higher new-task accuracy while substantially reducing catastrophic forgetting. In sequential learning experiments, SDFT enables a single model to accumulate multiple skills over time without performance regression, establishing on-policy distillation as a practical path to continual learning from demonstrations.

A Auto-Distilação Permite a Aprendizagem Contínua

Self-Distillation Enables Continual Learning

Resumo

Support