Je Transformers Stapelen: Een Diepere Blik op Modelgroei voor Efficiënte LLM Pre-training
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training
May 24, 2024
Auteurs: Wenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen, Reynold Cheng, Yike Guo, Jie Fu
cs.AI
Samenvatting
LLM's zijn computationeel kostbaar om voor te trainen vanwege hun grote schaal.
Modelgroei komt naar voren als een veelbelovende aanpak door kleinere modellen te gebruiken om
de training van grotere modellen te versnellen. Echter, de haalbaarheid van deze modelgroei-methoden
voor efficiënte LLM-voorpretraining blijft onderbelicht. Dit werk identificeert drie kritieke
textit{O}bstakels: (O1) gebrek aan uitgebreide evaluatie, (O2) ongeteste haalbaarheid voor
schaalbaarheid, en (O3) gebrek aan empirische richtlijnen. Om O1 aan te pakken,
vatten we bestaande benaderingen samen in vier atomaire groei-operators en evalueren we deze
systematisch in een gestandaardiseerde LLM-voorpretrainingsomgeving. Onze bevindingen tonen aan
dat een dieptewaartse stapeloperator, genaamd G_{stack}, een opmerkelijke versnelling in de training
laat zien, wat leidt tot een verminderd verlies en verbeterde algehele prestaties op acht standaard
NLP-benchmarks in vergelijking met sterke baselines. Gemotiveerd door deze veelbelovende resultaten,
voeren we uitgebreide experimenten uit om dieper in te gaan op G_{stack} om O2 en O3 aan te pakken.
Voor O2 (ongeteste schaalbaarheid) toont onze studie aan dat G_{stack} schaalbaar is en consistent
goed presteert, met experimenten tot 7B LLM's na groei en voorpretraining van LLM's met 750B tokens.
Bijvoorbeeld, in vergelijking met een conventioneel getraind 7B-model met 300B tokens, convergeert
ons G_{stack}-model naar hetzelfde verlies met 194B tokens, wat resulteert in een versnelling van 54,6\%.
We pakken O3 (gebrek aan empirische richtlijnen) verder aan door richtlijnen te formaliseren om het
groeitijdstip en de groeifactor voor G_{stack} te bepalen, waardoor het praktisch toepasbaar wordt
in algemene LLM-voorpretraining. We bieden ook diepgaande discussies en uitgebreide ablatiestudies
van G_{stack}. Onze code en voorgetrainde modellen zijn beschikbaar op
https://llm-stacking.github.io/{https://llm-stacking.github.io/}.
English
LLMs are computationally expensive to pre-train due to their large scale.
Model growth emerges as a promising approach by leveraging smaller models to
accelerate the training of larger ones. However, the viability of these model
growth methods in efficient LLM pre-training remains underexplored. This work
identifies three critical textit{O}bstacles: (O1)
lack of comprehensive evaluation, (O2) untested viability for
scaling, and (O3) lack of empirical guidelines. To tackle
O1, we summarize existing approaches into four atomic growth
operators and systematically evaluate them in a standardized LLM pre-training
setting. Our findings reveal that a depthwise stacking operator, called
G_{stack}, exhibits remarkable acceleration in training, leading to
decreased loss and improved overall performance on eight standard NLP
benchmarks compared to strong baselines. Motivated by these promising results,
we conduct extensive experiments to delve deeper into G_{stack} to
address O2 and O3. For O2 (untested
scalability), our study shows that G_{stack} is scalable and
consistently performs well, with experiments up to 7B LLMs after growth and
pre-training LLMs with 750B tokens. For example, compared to a conventionally
trained 7B model using 300B tokens, our G_{stack} model converges to
the same loss with 194B tokens, resulting in a 54.6\% speedup. We further
address O3 (lack of empirical guidelines) by formalizing guidelines
to determine growth timing and growth factor for G_{stack}, making it
practical in general LLM pre-training. We also provide in-depth discussions and
comprehensive ablation studies of G_{stack}. Our code and pre-trained
model are available at
https://llm-stacking.github.io/{https://llm-stacking.github.io/}.