Je Transformers Stapelen: Een Diepere Blik op Modelgroei voor Efficiënte LLM Pre-training

Samenvatting

LLM's zijn computationeel kostbaar om voor te trainen vanwege hun grote schaal. Modelgroei komt naar voren als een veelbelovende aanpak door kleinere modellen te gebruiken om de training van grotere modellen te versnellen. Echter, de haalbaarheid van deze modelgroei-methoden voor efficiënte LLM-voorpretraining blijft onderbelicht. Dit werk identificeert drie kritieke textit{O}bstakels: (O1) gebrek aan uitgebreide evaluatie, (O2) ongeteste haalbaarheid voor schaalbaarheid, en (O3) gebrek aan empirische richtlijnen. Om O1 aan te pakken, vatten we bestaande benaderingen samen in vier atomaire groei-operators en evalueren we deze systematisch in een gestandaardiseerde LLM-voorpretrainingsomgeving. Onze bevindingen tonen aan dat een dieptewaartse stapeloperator, genaamd G_{stack}, een opmerkelijke versnelling in de training laat zien, wat leidt tot een verminderd verlies en verbeterde algehele prestaties op acht standaard NLP-benchmarks in vergelijking met sterke baselines. Gemotiveerd door deze veelbelovende resultaten, voeren we uitgebreide experimenten uit om dieper in te gaan op G_{stack} om O2 en O3 aan te pakken. Voor O2 (ongeteste schaalbaarheid) toont onze studie aan dat G_{stack} schaalbaar is en consistent goed presteert, met experimenten tot 7B LLM's na groei en voorpretraining van LLM's met 750B tokens. Bijvoorbeeld, in vergelijking met een conventioneel getraind 7B-model met 300B tokens, convergeert ons G_{stack}-model naar hetzelfde verlies met 194B tokens, wat resulteert in een versnelling van 54,6\%. We pakken O3 (gebrek aan empirische richtlijnen) verder aan door richtlijnen te formaliseren om het groeitijdstip en de groeifactor voor G_{stack} te bepalen, waardoor het praktisch toepasbaar wordt in algemene LLM-voorpretraining. We bieden ook diepgaande discussies en uitgebreide ablatiestudies van G_{stack}. Onze code en voorgetrainde modellen zijn beschikbaar op https://llm-stacking.github.io/{https://llm-stacking.github.io/}.

English

LLMs are computationally expensive to pre-train due to their large scale. Model growth emerges as a promising approach by leveraging smaller models to accelerate the training of larger ones. However, the viability of these model growth methods in efficient LLM pre-training remains underexplored. This work identifies three critical textit{O}bstacles: (O1) lack of comprehensive evaluation, (O2) untested viability for scaling, and (O3) lack of empirical guidelines. To tackle O1, we summarize existing approaches into four atomic growth operators and systematically evaluate them in a standardized LLM pre-training setting. Our findings reveal that a depthwise stacking operator, called G_{stack}, exhibits remarkable acceleration in training, leading to decreased loss and improved overall performance on eight standard NLP benchmarks compared to strong baselines. Motivated by these promising results, we conduct extensive experiments to delve deeper into G_{stack} to address O2 and O3. For O2 (untested scalability), our study shows that G_{stack} is scalable and consistently performs well, with experiments up to 7B LLMs after growth and pre-training LLMs with 750B tokens. For example, compared to a conventionally trained 7B model using 300B tokens, our G_{stack} model converges to the same loss with 194B tokens, resulting in a 54.6\% speedup. We further address O3 (lack of empirical guidelines) by formalizing guidelines to determine growth timing and growth factor for G_{stack}, making it practical in general LLM pre-training. We also provide in-depth discussions and comprehensive ablation studies of G_{stack}. Our code and pre-trained model are available at https://llm-stacking.github.io/{https://llm-stacking.github.io/}.

Je Transformers Stapelen: Een Diepere Blik op Modelgroei voor Efficiënte LLM Pre-training

Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

Samenvatting

Support