ChatPaper.aiChatPaper

Das Stapeln Ihrer Transformer: Eine nähere Betrachtung des Modellwachstums für effizientes LLM-Vortraining.

Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

May 24, 2024
Autoren: Wenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen, Reynold Cheng, Yike Guo, Jie Fu
cs.AI

Zusammenfassung

LLMs sind aufgrund ihrer großen Skalierung rechenaufwändig, um vorab zu trainieren. Das Modellwachstum entwickelt sich als vielversprechender Ansatz, indem kleinere Modelle genutzt werden, um das Training größerer zu beschleunigen. Die Machbarkeit dieser Methoden des Modellwachstums beim effizienten Vorabtraining von LLMs bleibt jedoch weitgehend unerforscht. Diese Arbeit identifiziert drei kritische Hindernisse: (O1) Mangel an umfassender Bewertung, (O2) ungetestete Machbarkeit für Skalierung und (O3) Mangel an empirischen Leitlinien. Um O1 anzugehen, fassen wir bestehende Ansätze in vier atomare Wachstumsoperatoren zusammen und evaluieren sie systematisch in einem standardisierten LLM-Vorabtrainingsumfeld. Unsere Ergebnisse zeigen, dass ein Tiefenstapelungsoperator namens G_{stack} eine bemerkenswerte Beschleunigung im Training aufweist, was zu verringertem Verlust und verbesserten Gesamtleistungen auf acht Standard-NLP-Benchmarks im Vergleich zu starken Baselines führt. Motiviert durch diese vielversprechenden Ergebnisse führen wir umfangreiche Experimente durch, um tiefer in G_{stack} einzutauchen, um O2 und O3 anzugehen. Für O2 (nicht getestete Skalierbarkeit) zeigt unsere Studie, dass G_{stack} skalierbar ist und konsistent gut abschneidet, mit Experimenten von bis zu 7B LLMs nach dem Wachstum und Vorabtraining von LLMs mit 750B Tokens. Zum Beispiel konvergiert unser G_{stack}-Modell im Vergleich zu einem konventionell trainierten 7B-Modell mit 300B Tokens bei 194B Tokens zum gleichen Verlust, was zu einer Beschleunigung von 54,6\% führt. Wir gehen auch auf O3 (Mangel an empirischen Leitlinien) ein, indem wir Leitlinien formalisieren, um den Zeitpunkt des Wachstums und den Wachstumsfaktor für G_{stack} zu bestimmen, was es für allgemeines LLM-Vorabtraining praktisch macht. Wir bieten auch eingehende Diskussionen und umfassende Ablationsstudien von G_{stack} an. Unser Code und unser vorab trainiertes Modell sind verfügbar unter https://llm-stacking.github.io/.
English
LLMs are computationally expensive to pre-train due to their large scale. Model growth emerges as a promising approach by leveraging smaller models to accelerate the training of larger ones. However, the viability of these model growth methods in efficient LLM pre-training remains underexplored. This work identifies three critical textit{O}bstacles: (O1) lack of comprehensive evaluation, (O2) untested viability for scaling, and (O3) lack of empirical guidelines. To tackle O1, we summarize existing approaches into four atomic growth operators and systematically evaluate them in a standardized LLM pre-training setting. Our findings reveal that a depthwise stacking operator, called G_{stack}, exhibits remarkable acceleration in training, leading to decreased loss and improved overall performance on eight standard NLP benchmarks compared to strong baselines. Motivated by these promising results, we conduct extensive experiments to delve deeper into G_{stack} to address O2 and O3. For O2 (untested scalability), our study shows that G_{stack} is scalable and consistently performs well, with experiments up to 7B LLMs after growth and pre-training LLMs with 750B tokens. For example, compared to a conventionally trained 7B model using 300B tokens, our G_{stack} model converges to the same loss with 194B tokens, resulting in a 54.6\% speedup. We further address O3 (lack of empirical guidelines) by formalizing guidelines to determine growth timing and growth factor for G_{stack}, making it practical in general LLM pre-training. We also provide in-depth discussions and comprehensive ablation studies of G_{stack}. Our code and pre-trained model are available at https://llm-stacking.github.io/{https://llm-stacking.github.io/}.

Summary

AI-Generated Summary

PDF301December 15, 2024