Estrategias simples y escalables para el preentrenamiento continuo de modelos de lenguaje a gran escala
Simple and Scalable Strategies to Continually Pre-train Large Language Models
March 13, 2024
Autores: Adam Ibrahim, Benjamin Thérien, Kshitij Gupta, Mats L. Richter, Quentin Anthony, Timothée Lesort, Eugene Belilovsky, Irina Rish
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se preentrenan habitualmente con miles de millones de tokens, solo para reiniciar el proceso una vez que nuevos datos están disponibles. Una solución mucho más eficiente es preentrenar continuamente estos modelos, ahorrando un cálculo significativo en comparación con el reentrenamiento. Sin embargo, el cambio de distribución inducido por los nuevos datos generalmente resulta en un rendimiento degradado en los datos anteriores o en una mala adaptación a los nuevos datos. En este trabajo, demostramos que una combinación simple y escalable de recalentamiento de la tasa de aprendizaje (LR), reducción gradual de la LR y repetición de datos anteriores es suficiente para igualar el rendimiento de un reentrenamiento completo desde cero con todos los datos disponibles, medido por la pérdida final y los puntos de referencia de evaluación del modelo de lenguaje (LM). Específicamente, mostramos esto para un cambio de distribución débil pero realista entre dos conjuntos de datos de preentrenamiento de LLM comúnmente utilizados (Inglés→Inglés) y un cambio de distribución más fuerte (Inglés→Alemán) en un modelo de 405 millones de parámetros con grandes volúmenes de datos (cientos de miles de millones de tokens). Seleccionando el cambio débil pero realista para experimentos a mayor escala, también encontramos que nuestras estrategias de aprendizaje continuo igualan el punto de referencia de reentrenamiento para un LLM de 10 mil millones de parámetros. Nuestros resultados demuestran que los LLMs pueden actualizarse exitosamente mediante estrategias de aprendizaje continuo simples y escalables, igualando el punto de referencia de reentrenamiento utilizando solo una fracción del cálculo. Finalmente, inspirados por trabajos anteriores, proponemos alternativas al programa de tasa de aprendizaje coseno que ayudan a evitar el olvido inducido por el recalentamiento de la LR y que no están limitadas a un presupuesto fijo de tokens.
English
Large language models (LLMs) are routinely pre-trained on billions of tokens,
only to start the process over again once new data becomes available. A much
more efficient solution is to continually pre-train these models, saving
significant compute compared to re-training. However, the distribution shift
induced by new data typically results in degraded performance on previous data
or poor adaptation to the new data. In this work, we show that a simple and
scalable combination of learning rate (LR) re-warming, LR re-decaying, and
replay of previous data is sufficient to match the performance of fully
re-training from scratch on all available data, as measured by final loss and
language model (LM) evaluation benchmarks. Specifically, we show this for a
weak but realistic distribution shift between two commonly used LLM
pre-training datasets (EnglishrightarrowEnglish) and a stronger distribution
shift (EnglishrightarrowGerman) at the 405M parameter model scale with
large dataset sizes (hundreds of billions of tokens). Selecting the weak but
realistic shift for larger-scale experiments, we also find that our continual
learning strategies match the re-training baseline for a 10B parameter LLM. Our
results demonstrate that LLMs can be successfully updated via simple and
scalable continual learning strategies, matching the re-training baseline using
only a fraction of the compute. Finally, inspired by previous work, we propose
alternatives to the cosine learning rate schedule that help circumvent
forgetting induced by LR re-warming and that are not bound to a fixed token
budget.Summary
AI-Generated Summary