ChatPaper.aiChatPaper

Het Ontgrendelen van Capaciteiten voor Continue Leren in Taalmodellen

Unlocking Continual Learning Abilities in Language Models

June 25, 2024
Auteurs: Wenyu Du, Shuang Cheng, Tongxu Luo, Zihan Qiu, Zeyu Huang, Ka Chun Cheung, Reynold Cheng, Jie Fu
cs.AI

Samenvatting

Taalmodelen (LMs) vertonen indrukwekkende prestaties en generalisatiecapaciteiten. Echter, LMs worstelen met de hardnekkige uitdaging van catastrofaal vergeten, wat hun langetermijnhoudbaarheid in continu leren (CL) ondermijnt. Bestaande benaderingen pakken dit probleem meestal aan door oude taakgegevens of taakspecifieke inductieve bias in LMs te integreren. Oude gegevens en nauwkeurige taakinformatie zijn echter vaak niet beschikbaar of kostbaar om te verzamelen, wat de beschikbaarheid van huidige CL-benaderingen voor LMs belemmert. Om deze beperking aan te pakken, introduceren we MIGU (MagnItude-based Gradient Updating for continual learning), een herhalingsvrije en taaklabelvrije methode die alleen de modelparameters met grote magnitudes van de uitvoer in de lineaire lagen van LMs bijwerkt. MIGU is gebaseerd op onze observatie dat de L1-genormaliseerde magnitudeverdeling van de uitvoer in de lineaire lagen van LMs verschillend is wanneer de LM-modellen verschillende taakgegevens verwerken. Door deze eenvoudige beperking op het gradientupdateproces op te leggen, kunnen we het inherente gedrag van LMs benutten, waardoor hun aangeboren CL-vaardigheden worden ontgrendeld. Onze experimenten tonen aan dat MIGU universeel toepasbaar is op alle drie LM-architecturen (T5, RoBERTa en Llama2), en state-of-the-art of vergelijkbare prestaties levert in zowel continu finetunen als continu vooraf trainen op vier CL-benchmarks. MIGU brengt bijvoorbeeld een gemiddelde nauwkeurigheidsverbetering van 15,2% ten opzichte van conventionele parameter-efficiënte finetuning-baselines in een 15-taak CL-benchmark. MIGU kan ook naadloos integreren met alle drie bestaande CL-typen om de prestaties verder te verbeteren. Code is beschikbaar op https://github.com/wenyudu/MIGU{this https URL}.
English
Language models (LMs) exhibit impressive performance and generalization capabilities. However, LMs struggle with the persistent challenge of catastrophic forgetting, which undermines their long-term sustainability in continual learning (CL). Existing approaches usually address the issue by incorporating old task data or task-wise inductive bias into LMs. However, old data and accurate task information are often unavailable or costly to collect, hindering the availability of current CL approaches for LMs. To address this limitation, we introduce MIGU (MagnItude-based Gradient Updating for continual learning), a rehearsal-free and task-label-free method that only updates the model parameters with large magnitudes of output in LMs' linear layers. MIGU is based on our observation that the L1-normalized magnitude distribution of the output in LMs' linear layers is different when the LM models deal with different task data. By imposing this simple constraint on the gradient update process, we can leverage the inherent behaviors of LMs, thereby unlocking their innate CL abilities. Our experiments demonstrate that MIGU is universally applicable to all three LM architectures (T5, RoBERTa, and Llama2), delivering state-of-the-art or on-par performance across continual finetuning and continual pre-training settings on four CL benchmarks. For example, MIGU brings a 15.2% average accuracy improvement over conventional parameter-efficient finetuning baselines in a 15-task CL benchmark. MIGU can also seamlessly integrate with all three existing CL types to further enhance performance. Code is available at https://github.com/wenyudu/MIGU{this https URL}.
PDF301February 8, 2026