Empiler vos Transformers : Un examen approfondi de la croissance des modèles pour un pré-entraînement efficace des LLM
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training
May 24, 2024
Auteurs: Wenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen, Reynold Cheng, Yike Guo, Jie Fu
cs.AI
Résumé
Les LLM (modèles de langage de grande taille) sont coûteux en calcul pour le pré-entraînement en raison de leur échelle importante. La croissance de modèles émerge comme une approche prometteuse en exploitant des modèles plus petits pour accélérer l'entraînement de modèles plus grands. Cependant, la viabilité de ces méthodes de croissance de modèles dans le pré-entraînement efficace des LLM reste peu explorée. Ce travail identifie trois obstacles critiques : (O1) l'absence d'évaluation exhaustive, (O2) la viabilité non testée pour la mise à l'échelle, et (O3) le manque de lignes directrices empiriques. Pour aborder O1, nous résumons les approches existantes en quatre opérateurs de croissance atomiques et les évaluons systématiquement dans un cadre de pré-entraînement standardisé de LLM. Nos résultats révèlent qu'un opérateur d'empilement en profondeur, appelé G_{stack}, montre une accélération remarquable dans l'entraînement, conduisant à une diminution de la perte et à une amélioration des performances globales sur huit benchmarks standards de NLP par rapport à des bases de référence solides. Motivés par ces résultats prometteurs, nous menons des expériences approfondies pour explorer plus en détail G_{stack} afin de traiter O2 et O3. Pour O2 (viabilité non testée pour la mise à l'échelle), notre étude montre que G_{stack} est scalable et performe de manière cohérente, avec des expériences allant jusqu'à des LLM de 7B après croissance et un pré-entraînement de LLM avec 750B de tokens. Par exemple, comparé à un modèle de 7B entraîné classiquement avec 300B de tokens, notre modèle G_{stack} converge à la même perte avec 194B de tokens, résultant en une accélération de 54,6%. Nous abordons également O3 (manque de lignes directrices empiriques) en formalisant des lignes directrices pour déterminer le moment de la croissance et le facteur de croissance pour G_{stack}, le rendant pratique pour le pré-entraînement général des LLM. Nous fournissons également des discussions approfondies et des études d'ablation complètes de G_{stack}. Notre code et notre modèle pré-entraîné sont disponibles à l'adresse https://llm-stacking.github.io/{https://llm-stacking.github.io/}.
English
LLMs are computationally expensive to pre-train due to their large scale.
Model growth emerges as a promising approach by leveraging smaller models to
accelerate the training of larger ones. However, the viability of these model
growth methods in efficient LLM pre-training remains underexplored. This work
identifies three critical textit{O}bstacles: (O1)
lack of comprehensive evaluation, (O2) untested viability for
scaling, and (O3) lack of empirical guidelines. To tackle
O1, we summarize existing approaches into four atomic growth
operators and systematically evaluate them in a standardized LLM pre-training
setting. Our findings reveal that a depthwise stacking operator, called
G_{stack}, exhibits remarkable acceleration in training, leading to
decreased loss and improved overall performance on eight standard NLP
benchmarks compared to strong baselines. Motivated by these promising results,
we conduct extensive experiments to delve deeper into G_{stack} to
address O2 and O3. For O2 (untested
scalability), our study shows that G_{stack} is scalable and
consistently performs well, with experiments up to 7B LLMs after growth and
pre-training LLMs with 750B tokens. For example, compared to a conventionally
trained 7B model using 300B tokens, our G_{stack} model converges to
the same loss with 194B tokens, resulting in a 54.6\% speedup. We further
address O3 (lack of empirical guidelines) by formalizing guidelines
to determine growth timing and growth factor for G_{stack}, making it
practical in general LLM pre-training. We also provide in-depth discussions and
comprehensive ablation studies of G_{stack}. Our code and pre-trained
model are available at
https://llm-stacking.github.io/{https://llm-stacking.github.io/}.Summary
AI-Generated Summary