Estrategias simples y escalables para el preentrenamiento continuo de modelos de lenguaje a gran escalaSimple and Scalable Strategies to Continually Pre-train Large Language
Models
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se preentrenan habitualmente con miles de millones de tokens, solo para reiniciar el proceso una vez que nuevos datos están disponibles. Una solución mucho más eficiente es preentrenar continuamente estos modelos, ahorrando un cálculo significativo en comparación con el reentrenamiento. Sin embargo, el cambio de distribución inducido por los nuevos datos generalmente resulta en un rendimiento degradado en los datos anteriores o en una mala adaptación a los nuevos datos. En este trabajo, demostramos que una combinación simple y escalable de recalentamiento de la tasa de aprendizaje (LR), reducción gradual de la LR y repetición de datos anteriores es suficiente para igualar el rendimiento de un reentrenamiento completo desde cero con todos los datos disponibles, medido por la pérdida final y los puntos de referencia de evaluación del modelo de lenguaje (LM). Específicamente, mostramos esto para un cambio de distribución débil pero realista entre dos conjuntos de datos de preentrenamiento de LLM comúnmente utilizados (Inglés→Inglés) y un cambio de distribución más fuerte (Inglés→Alemán) en un modelo de 405 millones de parámetros con grandes volúmenes de datos (cientos de miles de millones de tokens). Seleccionando el cambio débil pero realista para experimentos a mayor escala, también encontramos que nuestras estrategias de aprendizaje continuo igualan el punto de referencia de reentrenamiento para un LLM de 10 mil millones de parámetros. Nuestros resultados demuestran que los LLMs pueden actualizarse exitosamente mediante estrategias de aprendizaje continuo simples y escalables, igualando el punto de referencia de reentrenamiento utilizando solo una fracción del cálculo. Finalmente, inspirados por trabajos anteriores, proponemos alternativas al programa de tasa de aprendizaje coseno que ayudan a evitar el olvido inducido por el recalentamiento de la LR y que no están limitadas a un presupuesto fijo de tokens.