Адаптация перед непрерывным обучением
Adapt before Continual Learning
June 4, 2025
Авторы: Aojun Lu, Tao Feng, Hangjie Yuan, Chunhui Ding, Yanan Sun
cs.AI
Аннотация
Непрерывное обучение (Continual Learning, CL) направлено на то, чтобы нейронные сети могли постепенно приобретать новые знания (пластичность), сохраняя при этом уже имеющиеся (стабильность). Хотя предварительно обученные модели (Pre-trained Models, PTMs) стали ключевым элементом в CL, преобладающие подходы замораживают основу PTM для сохранения стабильности, что ограничивает их пластичность, особенно при столкновении с существенными различиями в доменах в инкрементных задачах. С другой стороны, последовательная донастройка всей PTM рискует привести к катастрофическому забыванию обобщаемых знаний, что подчеркивает критический компромисс между стабильностью и пластичностью. Для решения этой проблемы мы предлагаем адаптацию PTM перед основным процессом CL (Adapting PTMs before the core CL process, ACL) — новый фреймворк, который улучшает основу PTM через фазу адаптации по принципу "подключи и работай" перед изучением каждой новой задачи с использованием существующих подходов CL (например, настройки промптов). ACL повышает пластичность, выравнивая эмбеддинги с их оригинальными прототипами классов и удаляя их от других, что, как показано теоретически и эмпирически, позволяет сбалансировать стабильность и пластичность. Многочисленные эксперименты демонстрируют, что ACL значительно улучшает производительность CL на различных бенчмарках и интегрированных методах, предлагая универсальное решение для CL на основе PTM.
English
Continual Learning (CL) seeks to enable neural networks to incrementally
acquire new knowledge (plasticity) while retaining existing knowledge
(stability). While pre-trained models (PTMs) have become pivotal in CL,
prevailing approaches freeze the PTM backbone to preserve stability, limiting
their plasticity, particularly when encountering significant domain gaps in
incremental tasks. Conversely, sequentially finetuning the entire PTM risks
catastrophic forgetting of generalizable knowledge, exposing a critical
stability-plasticity trade-off. To address this challenge, we propose Adapting
PTMs before the core CL process (ACL), a novel framework that refines the PTM
backbone through a plug-and-play adaptation phase before learning each new task
with existing CL approaches (e.g., prompt tuning). ACL enhances plasticity by
aligning embeddings with their original class prototypes while distancing them
from others, theoretically and empirically shown to balance stability and
plasticity. Extensive experiments demonstrate that ACL significantly improves
CL performance across benchmarks and integrated methods, offering a versatile
solution for PTM-based CL.