언어 모델의 지속 학습 능력 해제하기
Unlocking Continual Learning Abilities in Language Models
June 25, 2024
저자: Wenyu Du, Shuang Cheng, Tongxu Luo, Zihan Qiu, Zeyu Huang, Ka Chun Cheung, Reynold Cheng, Jie Fu
cs.AI
초록
언어 모델(LMs)은 인상적인 성능과 일반화 능력을 보여줍니다. 그러나 LMs는 지속적인 학습(CL)에서 장기적인 지속 가능성을 저해하는 치명적인 망각(catastrophic forgetting) 문제에 직면해 있습니다. 기존 접근 방식은 일반적으로 이전 작업 데이터를 통합하거나 작업별 귀납적 편향을 LMs에 적용하여 이 문제를 해결합니다. 그러나 이전 데이터와 정확한 작업 정보는 종종 사용할 수 없거나 수집 비용이 높아, 현재의 CL 접근 방식이 LMs에 적용되기 어렵게 만듭니다. 이러한 한계를 해결하기 위해, 우리는 MIGU(MagnItude-based Gradient Updating for continual learning)를 소개합니다. MIGU는 리허설(rehearsal)이 필요 없고 작업 레이블이 없는 방법으로, LMs의 선형 계층에서 출력의 크기가 큰 모델 파라미터만 업데이트합니다. MIGU는 LMs의 선형 계층에서 출력의 L1 정규화 크기 분포가 다른 작업 데이터를 처리할 때 다르다는 관찰에 기반합니다. 이 간단한 제약을 그래디언트 업데이트 과정에 적용함으로써, 우리는 LMs의 내재된 행동을 활용하여 그들의 고유한 CL 능력을 발휘할 수 있습니다. 우리의 실험은 MIGU가 세 가지 LM 아키텍처(T5, RoBERTa, Llama2) 모두에 보편적으로 적용 가능하며, 네 가지 CL 벤치마크에서 지속적인 미세 조정(finetuning)과 지속적인 사전 학습(pre-training) 설정에서 최신 수준 또는 그에 준하는 성능을 제공함을 보여줍니다. 예를 들어, MIGU는 15개 작업 CL 벤치마크에서 기존의 파라미터 효율적 미세 조정 기준선보다 평균 정확도 15.2% 향상을 가져옵니다. MIGU는 또한 기존의 세 가지 CL 유형과 원활하게 통합되어 성능을 더욱 향상시킬 수 있습니다. 코드는 https://github.com/wenyudu/MIGU{이 https URL}에서 확인할 수 있습니다.
English
Language models (LMs) exhibit impressive performance and generalization
capabilities. However, LMs struggle with the persistent challenge of
catastrophic forgetting, which undermines their long-term sustainability in
continual learning (CL). Existing approaches usually address the issue by
incorporating old task data or task-wise inductive bias into LMs. However, old
data and accurate task information are often unavailable or costly to collect,
hindering the availability of current CL approaches for LMs. To address this
limitation, we introduce MIGU (MagnItude-based
Gradient Updating for continual learning), a
rehearsal-free and task-label-free method that only updates the model
parameters with large magnitudes of output in LMs' linear layers. MIGU is based
on our observation that the L1-normalized magnitude distribution of the output
in LMs' linear layers is different when the LM models deal with different task
data. By imposing this simple constraint on the gradient update process, we can
leverage the inherent behaviors of LMs, thereby unlocking their innate CL
abilities. Our experiments demonstrate that MIGU is universally applicable to
all three LM architectures (T5, RoBERTa, and Llama2), delivering
state-of-the-art or on-par performance across continual finetuning and
continual pre-training settings on four CL benchmarks. For example, MIGU brings
a 15.2% average accuracy improvement over conventional parameter-efficient
finetuning baselines in a 15-task CL benchmark. MIGU can also seamlessly
integrate with all three existing CL types to further enhance performance. Code
is available at https://github.com/wenyudu/MIGU{this https URL}.Summary
AI-Generated Summary