Erschließung der Fähigkeiten des kontinuierlichen Lernens in Sprachmodellen
Unlocking Continual Learning Abilities in Language Models
June 25, 2024
Autoren: Wenyu Du, Shuang Cheng, Tongxu Luo, Zihan Qiu, Zeyu Huang, Ka Chun Cheung, Reynold Cheng, Jie Fu
cs.AI
Zusammenfassung
Sprachmodelle (LMs) zeigen beeindruckende Leistungen und Verallgemeinerungsfähigkeiten. Allerdings haben LMs Schwierigkeiten mit der anhaltenden Herausforderung des katastrophalen Vergessens, was ihre langfristige Nachhaltigkeit im kontinuierlichen Lernen (CL) untergräbt. Bestehende Ansätze behandeln das Problem in der Regel, indem sie alte Aufgabendaten oder aufgabenweise induktive Verzerrungen in LMs integrieren. Allerdings sind alte Daten und genaue Aufgabeninformationen oft nicht verfügbar oder teuer zu sammeln, was die Verfügbarkeit aktueller CL-Ansätze für LMs behindert. Um diese Einschränkung zu überwinden, stellen wir MIGU (MagnItude-basiertes Gradienten-Update für kontinuierliches Lernen) vor, eine Methode ohne Wiederholung und ohne Aufgabenbeschriftung, die nur die Modellparameter mit großen Magnituden der Ausgabe in den linearen Schichten von LMs aktualisiert. MIGU basiert auf unserer Beobachtung, dass die L1-normalisierte Magnitudenverteilung der Ausgabe in den linearen Schichten von LMs unterschiedlich ist, wenn die LM-Modelle mit verschiedenen Aufgabendaten umgehen. Durch die Anwendung dieser einfachen Einschränkung auf den Gradientenaktualisierungsprozess können wir das inhärente Verhalten von LMs nutzen und somit ihre angeborenen CL-Fähigkeiten freisetzen. Unsere Experimente zeigen, dass MIGU universell auf alle drei LM-Architekturen (T5, RoBERTa und Llama2) anwendbar ist und bei kontinuierlicher Feinabstimmung und kontinuierlichem Vortraining auf vier CL-Benchmarks Spitzenleistungen oder vergleichbare Leistungen erbringt. Beispielsweise erzielt MIGU eine durchschnittliche Genauigkeitsverbesserung von 15,2% gegenüber herkömmlichen parameter-effizienten Feinabstimmungs-Baselines in einem 15-Aufgaben-CL-Benchmark. MIGU kann auch nahtlos mit allen drei bestehenden CL-Typen integriert werden, um die Leistung weiter zu verbessern. Der Code ist verfügbar unter https://github.com/wenyudu/MIGU.
English
Language models (LMs) exhibit impressive performance and generalization
capabilities. However, LMs struggle with the persistent challenge of
catastrophic forgetting, which undermines their long-term sustainability in
continual learning (CL). Existing approaches usually address the issue by
incorporating old task data or task-wise inductive bias into LMs. However, old
data and accurate task information are often unavailable or costly to collect,
hindering the availability of current CL approaches for LMs. To address this
limitation, we introduce MIGU (MagnItude-based
Gradient Updating for continual learning), a
rehearsal-free and task-label-free method that only updates the model
parameters with large magnitudes of output in LMs' linear layers. MIGU is based
on our observation that the L1-normalized magnitude distribution of the output
in LMs' linear layers is different when the LM models deal with different task
data. By imposing this simple constraint on the gradient update process, we can
leverage the inherent behaviors of LMs, thereby unlocking their innate CL
abilities. Our experiments demonstrate that MIGU is universally applicable to
all three LM architectures (T5, RoBERTa, and Llama2), delivering
state-of-the-art or on-par performance across continual finetuning and
continual pre-training settings on four CL benchmarks. For example, MIGU brings
a 15.2% average accuracy improvement over conventional parameter-efficient
finetuning baselines in a 15-task CL benchmark. MIGU can also seamlessly
integrate with all three existing CL types to further enhance performance. Code
is available at https://github.com/wenyudu/MIGU{this https URL}.Summary
AI-Generated Summary