Stratégies simples et évolutives pour le pré-entraînement continu des grands modèles de langageSimple and Scalable Strategies to Continually Pre-train Large Language
Models
Les grands modèles de langage (LLM) sont généralement pré-entraînés sur des milliards de tokens, pour ensuite recommencer le processus dès que de nouvelles données deviennent disponibles. Une solution bien plus efficace consiste à pré-entraîner ces modèles de manière continue, ce qui permet d'économiser des ressources de calcul considérables par rapport à un ré-entraînement complet. Cependant, le décalage de distribution induit par les nouvelles données entraîne généralement une dégradation des performances sur les données précédentes ou une mauvaise adaptation aux nouvelles données. Dans ce travail, nous montrons qu'une combinaison simple et évolutive de réchauffement du taux d'apprentissage (LR), de réduction progressive du LR et de réutilisation des données précédentes suffit à égaler les performances d'un ré-entraînement complet sur toutes les données disponibles, mesurées par la perte finale et les benchmarks d'évaluation des modèles de langage (LM). Nous démontrons cela pour un décalage de distribution faible mais réaliste entre deux ensembles de données couramment utilisés pour le pré-entraînement des LLM (Anglais→Anglais) et un décalage plus marqué (Anglais→Allemand) à l'échelle d'un modèle de 405M de paramètres avec des ensembles de données volumineux (centaines de milliards de tokens). En choisissant le décalage faible mais réaliste pour des expériences à plus grande échelle, nous constatons également que nos stratégies d'apprentissage continu égalent la base de référence du ré-entraînement pour un LLM de 10B de paramètres. Nos résultats montrent que les LLM peuvent être mis à jour avec succès grâce à des stratégies d'apprentissage continu simples et évolutives, égalant la base de référence du ré-entraînement en utilisant seulement une fraction des ressources de calcul. Enfin, inspirés par des travaux antérieurs, nous proposons des alternatives au planning de taux d'apprentissage cosinus qui aident à contourner l'oubli induit par le réchauffement du LR et qui ne sont pas liées à un budget fixe de tokens.