Desbloqueando as Capacidades de Aprendizado Contínuo em Modelos de Linguagem
Unlocking Continual Learning Abilities in Language Models
June 25, 2024
Autores: Wenyu Du, Shuang Cheng, Tongxu Luo, Zihan Qiu, Zeyu Huang, Ka Chun Cheung, Reynold Cheng, Jie Fu
cs.AI
Resumo
Os modelos de linguagem (LMs) apresentam um desempenho impressionante e capacidades de generalização. No entanto, os LMs enfrentam a desafiadora questão do esquecimento catastrófico, que compromete sua sustentabilidade a longo prazo na aprendizagem contínua (CL). As abordagens existentes geralmente lidam com o problema incorporando dados de tarefas antigas ou viés indutivo por tarefa nos LMs. No entanto, os dados antigos e informações precisas da tarefa frequentemente não estão disponíveis ou são caros de coletar, dificultando a disponibilidade das abordagens de CL atuais para LMs. Para lidar com essa limitação, apresentamos o MIGU (Atualização de Gradiente com Base em Magnitude para aprendizagem contínua), um método sem repetição e sem rótulo de tarefa que atualiza apenas os parâmetros do modelo com grandes magnitudes de saída nas camadas lineares dos LMs. O MIGU é baseado em nossa observação de que a distribuição normalizada por L1 da magnitude da saída nas camadas lineares dos LMs é diferente quando os modelos LM lidam com diferentes dados de tarefas. Ao impor essa simples restrição no processo de atualização do gradiente, podemos aproveitar os comportamentos inerentes dos LMs, desbloqueando assim suas habilidades inatas de CL. Nossos experimentos demonstram que o MIGU é universalmente aplicável a todas as três arquiteturas de LM (T5, RoBERTa e Llama2), proporcionando desempenho de ponta ou equivalente em ajuste contínuo e configurações de pré-treinamento contínuo em quatro benchmarks de CL. Por exemplo, o MIGU traz uma melhoria média de precisão de 15,2% em relação às linhas de base de ajuste eficiente de parâmetros convencionais em um benchmark de CL de 15 tarefas. O MIGU também pode ser integrado perfeitamente com os três tipos de CL existentes para aprimorar ainda mais o desempenho. O código está disponível em https://github.com/wenyudu/MIGU{este URL do GitHub}.
English
Language models (LMs) exhibit impressive performance and generalization
capabilities. However, LMs struggle with the persistent challenge of
catastrophic forgetting, which undermines their long-term sustainability in
continual learning (CL). Existing approaches usually address the issue by
incorporating old task data or task-wise inductive bias into LMs. However, old
data and accurate task information are often unavailable or costly to collect,
hindering the availability of current CL approaches for LMs. To address this
limitation, we introduce MIGU (MagnItude-based
Gradient Updating for continual learning), a
rehearsal-free and task-label-free method that only updates the model
parameters with large magnitudes of output in LMs' linear layers. MIGU is based
on our observation that the L1-normalized magnitude distribution of the output
in LMs' linear layers is different when the LM models deal with different task
data. By imposing this simple constraint on the gradient update process, we can
leverage the inherent behaviors of LMs, thereby unlocking their innate CL
abilities. Our experiments demonstrate that MIGU is universally applicable to
all three LM architectures (T5, RoBERTa, and Llama2), delivering
state-of-the-art or on-par performance across continual finetuning and
continual pre-training settings on four CL benchmarks. For example, MIGU brings
a 15.2% average accuracy improvement over conventional parameter-efficient
finetuning baselines in a 15-task CL benchmark. MIGU can also seamlessly
integrate with all three existing CL types to further enhance performance. Code
is available at https://github.com/wenyudu/MIGU{this https URL}.