Адаптация перед непрерывным обучением

Аннотация

Непрерывное обучение (Continual Learning, CL) направлено на то, чтобы нейронные сети могли постепенно приобретать новые знания (пластичность), сохраняя при этом уже имеющиеся (стабильность). Хотя предварительно обученные модели (Pre-trained Models, PTMs) стали ключевым элементом в CL, преобладающие подходы замораживают основу PTM для сохранения стабильности, что ограничивает их пластичность, особенно при столкновении с существенными различиями в доменах в инкрементных задачах. С другой стороны, последовательная донастройка всей PTM рискует привести к катастрофическому забыванию обобщаемых знаний, что подчеркивает критический компромисс между стабильностью и пластичностью. Для решения этой проблемы мы предлагаем адаптацию PTM перед основным процессом CL (Adapting PTMs before the core CL process, ACL) — новый фреймворк, который улучшает основу PTM через фазу адаптации по принципу "подключи и работай" перед изучением каждой новой задачи с использованием существующих подходов CL (например, настройки промптов). ACL повышает пластичность, выравнивая эмбеддинги с их оригинальными прототипами классов и удаляя их от других, что, как показано теоретически и эмпирически, позволяет сбалансировать стабильность и пластичность. Многочисленные эксперименты демонстрируют, что ACL значительно улучшает производительность CL на различных бенчмарках и интегрированных методах, предлагая универсальное решение для CL на основе PTM.

English

Continual Learning (CL) seeks to enable neural networks to incrementally acquire new knowledge (plasticity) while retaining existing knowledge (stability). While pre-trained models (PTMs) have become pivotal in CL, prevailing approaches freeze the PTM backbone to preserve stability, limiting their plasticity, particularly when encountering significant domain gaps in incremental tasks. Conversely, sequentially finetuning the entire PTM risks catastrophic forgetting of generalizable knowledge, exposing a critical stability-plasticity trade-off. To address this challenge, we propose Adapting PTMs before the core CL process (ACL), a novel framework that refines the PTM backbone through a plug-and-play adaptation phase before learning each new task with existing CL approaches (e.g., prompt tuning). ACL enhances plasticity by aligning embeddings with their original class prototypes while distancing them from others, theoretically and empirically shown to balance stability and plasticity. Extensive experiments demonstrate that ACL significantly improves CL performance across benchmarks and integrated methods, offering a versatile solution for PTM-based CL.

Адаптация перед непрерывным обучением

Adapt before Continual Learning

Аннотация

Support