Débloquer les capacités d'apprentissage continu dans les modèles de langage
Unlocking Continual Learning Abilities in Language Models
June 25, 2024
Auteurs: Wenyu Du, Shuang Cheng, Tongxu Luo, Zihan Qiu, Zeyu Huang, Ka Chun Cheung, Reynold Cheng, Jie Fu
cs.AI
Résumé
Les modèles de langage (LMs) démontrent des performances impressionnantes et des capacités de généralisation remarquables. Cependant, ils sont confrontés au défi persistant de l'oubli catastrophique, qui compromet leur durabilité à long terme dans le cadre de l'apprentissage continu (CL). Les approches existantes traitent généralement ce problème en intégrant des données d'anciennes tâches ou un biais inductif spécifique à chaque tâche dans les LMs. Cependant, les données anciennes et les informations précises sur les tâches sont souvent indisponibles ou coûteuses à collecter, limitant ainsi la disponibilité des approches actuelles de CL pour les LMs. Pour pallier cette limitation, nous introduisons MIGU (MagnItude-based Gradient Updating for continual learning), une méthode sans répétition et sans étiquette de tâche qui ne met à jour que les paramètres du modèle présentant de grandes magnitudes de sortie dans les couches linéaires des LMs. MIGU repose sur notre observation que la distribution normalisée L1 des magnitudes de sortie dans les couches linéaires des LMs diffère lorsque les LMs traitent des données de tâches différentes. En imposant cette simple contrainte sur le processus de mise à jour des gradients, nous pouvons exploiter les comportements inhérents des LMs, débloquant ainsi leurs capacités naturelles de CL. Nos expériences montrent que MIGU est universellement applicable aux trois architectures de LMs (T5, RoBERTa et Llama2), offrant des performances de pointe ou comparables dans les contextes de fine-tuning continu et de pré-entraînement continu sur quatre benchmarks de CL. Par exemple, MIGU apporte une amélioration moyenne de 15,2 % en précision par rapport aux baselines conventionnelles de fine-tuning efficace en paramètres dans un benchmark de CL à 15 tâches. MIGU peut également s'intégrer de manière transparente avec les trois types existants de CL pour améliorer encore les performances. Le code est disponible à l'adresse suivante : https://github.com/wenyudu/MIGU{this https URL}.
English
Language models (LMs) exhibit impressive performance and generalization
capabilities. However, LMs struggle with the persistent challenge of
catastrophic forgetting, which undermines their long-term sustainability in
continual learning (CL). Existing approaches usually address the issue by
incorporating old task data or task-wise inductive bias into LMs. However, old
data and accurate task information are often unavailable or costly to collect,
hindering the availability of current CL approaches for LMs. To address this
limitation, we introduce MIGU (MagnItude-based
Gradient Updating for continual learning), a
rehearsal-free and task-label-free method that only updates the model
parameters with large magnitudes of output in LMs' linear layers. MIGU is based
on our observation that the L1-normalized magnitude distribution of the output
in LMs' linear layers is different when the LM models deal with different task
data. By imposing this simple constraint on the gradient update process, we can
leverage the inherent behaviors of LMs, thereby unlocking their innate CL
abilities. Our experiments demonstrate that MIGU is universally applicable to
all three LM architectures (T5, RoBERTa, and Llama2), delivering
state-of-the-art or on-par performance across continual finetuning and
continual pre-training settings on four CL benchmarks. For example, MIGU brings
a 15.2% average accuracy improvement over conventional parameter-efficient
finetuning baselines in a 15-task CL benchmark. MIGU can also seamlessly
integrate with all three existing CL types to further enhance performance. Code
is available at https://github.com/wenyudu/MIGU{this https URL}.Summary
AI-Generated Summary