Het Ontgrendelen van Capaciteiten voor Continue Leren in Taalmodellen
Unlocking Continual Learning Abilities in Language Models
June 25, 2024
Auteurs: Wenyu Du, Shuang Cheng, Tongxu Luo, Zihan Qiu, Zeyu Huang, Ka Chun Cheung, Reynold Cheng, Jie Fu
cs.AI
Samenvatting
Taalmodelen (LMs) vertonen indrukwekkende prestaties en generalisatiecapaciteiten. Echter, LMs worstelen met de hardnekkige uitdaging van catastrofaal vergeten, wat hun langetermijnhoudbaarheid in continu leren (CL) ondermijnt. Bestaande benaderingen pakken dit probleem meestal aan door oude taakgegevens of taakspecifieke inductieve bias in LMs te integreren. Oude gegevens en nauwkeurige taakinformatie zijn echter vaak niet beschikbaar of kostbaar om te verzamelen, wat de beschikbaarheid van huidige CL-benaderingen voor LMs belemmert. Om deze beperking aan te pakken, introduceren we MIGU (MagnItude-based Gradient Updating for continual learning), een herhalingsvrije en taaklabelvrije methode die alleen de modelparameters met grote magnitudes van de uitvoer in de lineaire lagen van LMs bijwerkt. MIGU is gebaseerd op onze observatie dat de L1-genormaliseerde magnitudeverdeling van de uitvoer in de lineaire lagen van LMs verschillend is wanneer de LM-modellen verschillende taakgegevens verwerken. Door deze eenvoudige beperking op het gradientupdateproces op te leggen, kunnen we het inherente gedrag van LMs benutten, waardoor hun aangeboren CL-vaardigheden worden ontgrendeld. Onze experimenten tonen aan dat MIGU universeel toepasbaar is op alle drie LM-architecturen (T5, RoBERTa en Llama2), en state-of-the-art of vergelijkbare prestaties levert in zowel continu finetunen als continu vooraf trainen op vier CL-benchmarks. MIGU brengt bijvoorbeeld een gemiddelde nauwkeurigheidsverbetering van 15,2% ten opzichte van conventionele parameter-efficiënte finetuning-baselines in een 15-taak CL-benchmark. MIGU kan ook naadloos integreren met alle drie bestaande CL-typen om de prestaties verder te verbeteren. Code is beschikbaar op https://github.com/wenyudu/MIGU{this https URL}.
English
Language models (LMs) exhibit impressive performance and generalization
capabilities. However, LMs struggle with the persistent challenge of
catastrophic forgetting, which undermines their long-term sustainability in
continual learning (CL). Existing approaches usually address the issue by
incorporating old task data or task-wise inductive bias into LMs. However, old
data and accurate task information are often unavailable or costly to collect,
hindering the availability of current CL approaches for LMs. To address this
limitation, we introduce MIGU (MagnItude-based
Gradient Updating for continual learning), a
rehearsal-free and task-label-free method that only updates the model
parameters with large magnitudes of output in LMs' linear layers. MIGU is based
on our observation that the L1-normalized magnitude distribution of the output
in LMs' linear layers is different when the LM models deal with different task
data. By imposing this simple constraint on the gradient update process, we can
leverage the inherent behaviors of LMs, thereby unlocking their innate CL
abilities. Our experiments demonstrate that MIGU is universally applicable to
all three LM architectures (T5, RoBERTa, and Llama2), delivering
state-of-the-art or on-par performance across continual finetuning and
continual pre-training settings on four CL benchmarks. For example, MIGU brings
a 15.2% average accuracy improvement over conventional parameter-efficient
finetuning baselines in a 15-task CL benchmark. MIGU can also seamlessly
integrate with all three existing CL types to further enhance performance. Code
is available at https://github.com/wenyudu/MIGU{this https URL}.