Pré-entraînement continu efficace par atténuation de l'écart de stabilité
Efficient Continual Pre-training by Mitigating the Stability Gap
June 21, 2024
Auteurs: Yiduo Guo, Jie Fu, Huishuai Zhang, Dongyan Zhao, Yikang Shen
cs.AI
Résumé
Le pré-entraînement continu est devenu une approche prédominante pour adapter les grands modèles de langage (LLMs) à de nouveaux domaines. Ce processus consiste à mettre à jour le LLM pré-entraîné avec un corpus provenant d'un nouveau domaine, entraînant ainsi un changement dans la distribution d'entraînement. Pour étudier le comportement des LLMs pendant ce changement, nous avons mesuré la performance du modèle tout au long du processus de pré-entraînement continu. Nous avons observé une baisse temporaire de performance au début, suivie d'une phase de récupération, un phénomène connu sous le nom de "stabilité gap", précédemment observé dans les modèles de vision classifiant de nouvelles classes. Pour résoudre ce problème et améliorer la performance des LLMs dans un budget de calcul fixe, nous proposons trois stratégies efficaces : (1) Pré-entraîner continuellement le LLM sur un sous-ensemble de taille appropriée pendant plusieurs époques, ce qui permet une récupération plus rapide de la performance que le pré-entraînement sur un grand corpus en une seule époque ; (2) Pré-entraîner le LLM uniquement sur un sous-corpus de haute qualité, ce qui améliore rapidement la performance dans le domaine ; et (3) Utiliser un mélange de données similaire aux données de pré-entraînement pour réduire l'écart de distribution. Nous menons diverses expériences sur les modèles de la famille Llama pour valider l'efficacité de nos stratégies dans le pré-entraînement continu médical et le réglage par instruction. Par exemple, nos stratégies améliorent la performance moyenne des tâches médicales du modèle OpenLlama-3B de 36,2 % à 40,7 % avec seulement 40 % du budget d'entraînement initial et améliorent la performance moyenne des tâches générales sans causer d'oubli. De plus, nous appliquons nos stratégies au modèle Llama-3-8B. Le modèle résultant, Llama-3-Physician, atteint la meilleure performance médicale parmi les modèles open-source actuels et performe de manière comparable ou même supérieure à GPT-4 sur plusieurs benchmarks médicaux. Nous publions nos modèles à l'adresse https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
English
Continual pre-training has increasingly become the predominant approach for
adapting Large Language Models (LLMs) to new domains. This process involves
updating the pre-trained LLM with a corpus from a new domain, resulting in a
shift in the training distribution. To study the behavior of LLMs during this
shift, we measured the model's performance throughout the continual
pre-training process. we observed a temporary performance drop at the
beginning, followed by a recovery phase, a phenomenon known as the "stability
gap," previously noted in vision models classifying new classes. To address
this issue and enhance LLM performance within a fixed compute budget, we
propose three effective strategies: (1) Continually pre-training the LLM on a
subset with a proper size for multiple epochs, resulting in faster performance
recovery than pre-training the LLM on a large corpus in a single epoch; (2)
Pre-training the LLM only on high-quality sub-corpus, which rapidly boosts
domain performance; and (3) Using a data mixture similar to the pre-training
data to reduce distribution gap. We conduct various experiments on Llama-family
models to validate the effectiveness of our strategies in both medical
continual pre-training and instruction tuning. For example, our strategies
improve the average medical task performance of the OpenLlama-3B model from
36.2% to 40.7% with only 40% of the original training budget and enhance the
average general task performance without causing forgetting. Furthermore, we
apply our strategies to the Llama-3-8B model. The resulting model,
Llama-3-Physician, achieves the best medical performance among current
open-source models, and performs comparably to or even better than GPT-4 on
several medical benchmarks. We release our models at
https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.Summary
AI-Generated Summary