ChatPaper.aiChatPaper

Estratégias Simples e Escaláveis para o Pré-treinamento Contínuo de Modelos de Linguagem de Grande Escala

Simple and Scalable Strategies to Continually Pre-train Large Language Models

March 13, 2024
Autores: Adam Ibrahim, Benjamin Thérien, Kshitij Gupta, Mats L. Richter, Quentin Anthony, Timothée Lesort, Eugene Belilovsky, Irina Rish
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) são rotineiramente pré-treinados em bilhões de tokens, apenas para reiniciar o processo novamente quando novos dados se tornam disponíveis. Uma solução muito mais eficiente é pré-treinar continuamente esses modelos, economizando um poder computacional significativo em comparação com o retreinamento. No entanto, a mudança de distribuição induzida por novos dados geralmente resulta em desempenho degradado em dados anteriores ou em uma adaptação inadequada aos novos dados. Neste trabalho, mostramos que uma combinação simples e escalável de reaquecimento da taxa de aprendizado (LR), redecadência da LR e replay de dados anteriores é suficiente para igualar o desempenho do retreinamento completo a partir do zero em todos os dados disponíveis, conforme medido pela perda final e benchmarks de avaliação de modelos de linguagem (LM). Especificamente, mostramos isso para uma mudança de distribuição fraca, mas realista, entre dois conjuntos de dados comumente usados para pré-treinamento de LLMs (Inglês→Inglês) e uma mudança de distribuição mais forte (Inglês→Alemão) na escala de modelo de 405M parâmetros com grandes tamanhos de conjuntos de dados (centenas de bilhões de tokens). Selecionando a mudança fraca, mas realista, para experimentos em maior escala, também descobrimos que nossas estratégias de aprendizado contínuo igualam a linha de base de retreinamento para um LLM de 10B parâmetros. Nossos resultados demonstram que LLMs podem ser atualizados com sucesso por meio de estratégias simples e escaláveis de aprendizado contínuo, igualando a linha de base de retreinamento usando apenas uma fração do poder computacional. Por fim, inspirados por trabalhos anteriores, propomos alternativas ao cronograma de taxa de aprendizado cosseno que ajudam a contornar o esquecimento induzido pelo reaquecimento da LR e que não estão vinculados a um orçamento fixo de tokens.
English
Large language models (LLMs) are routinely pre-trained on billions of tokens, only to start the process over again once new data becomes available. A much more efficient solution is to continually pre-train these models, saving significant compute compared to re-training. However, the distribution shift induced by new data typically results in degraded performance on previous data or poor adaptation to the new data. In this work, we show that a simple and scalable combination of learning rate (LR) re-warming, LR re-decaying, and replay of previous data is sufficient to match the performance of fully re-training from scratch on all available data, as measured by final loss and language model (LM) evaluation benchmarks. Specifically, we show this for a weak but realistic distribution shift between two commonly used LLM pre-training datasets (EnglishrightarrowEnglish) and a stronger distribution shift (EnglishrightarrowGerman) at the 405M parameter model scale with large dataset sizes (hundreds of billions of tokens). Selecting the weak but realistic shift for larger-scale experiments, we also find that our continual learning strategies match the re-training baseline for a 10B parameter LLM. Our results demonstrate that LLMs can be successfully updated via simple and scalable continual learning strategies, matching the re-training baseline using only a fraction of the compute. Finally, inspired by previous work, we propose alternatives to the cosine learning rate schedule that help circumvent forgetting induced by LR re-warming and that are not bound to a fixed token budget.
PDF511December 15, 2024