Empiler vos Transformers : Un examen approfondi de la croissance des modèles pour un pré-entraînement efficace des LLM

papers.abstract

Les LLM (modèles de langage de grande taille) sont coûteux en calcul pour le pré-entraînement en raison de leur échelle importante. La croissance de modèles émerge comme une approche prometteuse en exploitant des modèles plus petits pour accélérer l'entraînement de modèles plus grands. Cependant, la viabilité de ces méthodes de croissance de modèles dans le pré-entraînement efficace des LLM reste peu explorée. Ce travail identifie trois obstacles critiques : (O1) l'absence d'évaluation exhaustive, (O2) la viabilité non testée pour la mise à l'échelle, et (O3) le manque de lignes directrices empiriques. Pour aborder O1, nous résumons les approches existantes en quatre opérateurs de croissance atomiques et les évaluons systématiquement dans un cadre de pré-entraînement standardisé de LLM. Nos résultats révèlent qu'un opérateur d'empilement en profondeur, appelé G_{stack}, montre une accélération remarquable dans l'entraînement, conduisant à une diminution de la perte et à une amélioration des performances globales sur huit benchmarks standards de NLP par rapport à des bases de référence solides. Motivés par ces résultats prometteurs, nous menons des expériences approfondies pour explorer plus en détail G_{stack} afin de traiter O2 et O3. Pour O2 (viabilité non testée pour la mise à l'échelle), notre étude montre que G_{stack} est scalable et performe de manière cohérente, avec des expériences allant jusqu'à des LLM de 7B après croissance et un pré-entraînement de LLM avec 750B de tokens. Par exemple, comparé à un modèle de 7B entraîné classiquement avec 300B de tokens, notre modèle G_{stack} converge à la même perte avec 194B de tokens, résultant en une accélération de 54,6%. Nous abordons également O3 (manque de lignes directrices empiriques) en formalisant des lignes directrices pour déterminer le moment de la croissance et le facteur de croissance pour G_{stack}, le rendant pratique pour le pré-entraînement général des LLM. Nous fournissons également des discussions approfondies et des études d'ablation complètes de G_{stack}. Notre code et notre modèle pré-entraîné sont disponibles à l'adresse https://llm-stacking.github.io/{https://llm-stacking.github.io/}.

English

LLMs are computationally expensive to pre-train due to their large scale. Model growth emerges as a promising approach by leveraging smaller models to accelerate the training of larger ones. However, the viability of these model growth methods in efficient LLM pre-training remains underexplored. This work identifies three critical textit{O}bstacles: (O1) lack of comprehensive evaluation, (O2) untested viability for scaling, and (O3) lack of empirical guidelines. To tackle O1, we summarize existing approaches into four atomic growth operators and systematically evaluate them in a standardized LLM pre-training setting. Our findings reveal that a depthwise stacking operator, called G_{stack}, exhibits remarkable acceleration in training, leading to decreased loss and improved overall performance on eight standard NLP benchmarks compared to strong baselines. Motivated by these promising results, we conduct extensive experiments to delve deeper into G_{stack} to address O2 and O3. For O2 (untested scalability), our study shows that G_{stack} is scalable and consistently performs well, with experiments up to 7B LLMs after growth and pre-training LLMs with 750B tokens. For example, compared to a conventionally trained 7B model using 300B tokens, our G_{stack} model converges to the same loss with 194B tokens, resulting in a 54.6\% speedup. We further address O3 (lack of empirical guidelines) by formalizing guidelines to determine growth timing and growth factor for G_{stack}, making it practical in general LLM pre-training. We also provide in-depth discussions and comprehensive ablation studies of G_{stack}. Our code and pre-trained model are available at https://llm-stacking.github.io/{https://llm-stacking.github.io/}.

Empiler vos Transformers : Un examen approfondi de la croissance des modèles pour un pré-entraînement efficace des LLM

Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

papers.abstract

Support