지속 학습 전에 적응하기
Adapt before Continual Learning
June 4, 2025
저자: Aojun Lu, Tao Feng, Hangjie Yuan, Chunhui Ding, Yanan Sun
cs.AI
초록
지속 학습(Continual Learning, CL)은 신경망이 기존 지식을 유지하면서(안정성) 새로운 지식을 점진적으로 습득(가소성)할 수 있도록 하는 것을 목표로 한다. 사전 학습된 모델(Pre-trained Models, PTMs)이 CL에서 중요한 역할을 하고 있지만, 기존 접근법은 안정성을 유지하기 위해 PTM 백본을 고정함으로써 가소성을 제한하며, 특히 점진적 작업에서 큰 도메인 격차를 마주할 때 이러한 한계가 두드러진다. 반면, PTM 전체를 순차적으로 미세 조정하는 것은 일반화 가능한 지식의 치명적인 망각(catastrophic forgetting)을 초래할 위험이 있어, 안정성과 가소성 간의 중요한 균형 문제를 노출시킨다. 이러한 문제를 해결하기 위해, 우리는 핵심 CL 프로세스 이전에 PTM을 적응시키는(Adapting PTMs before the core CL process, ACL) 새로운 프레임워크를 제안한다. ACL은 기존 CL 접근법(예: 프롬프트 튜닝)을 사용하여 각 새로운 작업을 학습하기 전에 플러그 앤 플레이 방식의 적응 단계를 통해 PTM 백본을 개선한다. ACL은 임베딩을 원래 클래스 프로토타입과 정렬시키고 다른 클래스와 거리를 두도록 함으로써 가소성을 향상시키며, 이론적 및 실험적으로 안정성과 가소성의 균형을 맞추는 것으로 입증되었다. 광범위한 실험을 통해 ACL이 다양한 벤치마크와 통합 방법에서 CL 성능을 크게 향상시키며, PTM 기반 CL을 위한 다용도 솔루션을 제공함을 보여준다.
English
Continual Learning (CL) seeks to enable neural networks to incrementally
acquire new knowledge (plasticity) while retaining existing knowledge
(stability). While pre-trained models (PTMs) have become pivotal in CL,
prevailing approaches freeze the PTM backbone to preserve stability, limiting
their plasticity, particularly when encountering significant domain gaps in
incremental tasks. Conversely, sequentially finetuning the entire PTM risks
catastrophic forgetting of generalizable knowledge, exposing a critical
stability-plasticity trade-off. To address this challenge, we propose Adapting
PTMs before the core CL process (ACL), a novel framework that refines the PTM
backbone through a plug-and-play adaptation phase before learning each new task
with existing CL approaches (e.g., prompt tuning). ACL enhances plasticity by
aligning embeddings with their original class prototypes while distancing them
from others, theoretically and empirically shown to balance stability and
plasticity. Extensive experiments demonstrate that ACL significantly improves
CL performance across benchmarks and integrated methods, offering a versatile
solution for PTM-based CL.