Impilare i tuoi Transformer: Un'analisi approfondita della crescita del modello per un pre-addestramento efficiente di LLM

Abstract

I LLM sono computazionalmente costosi da pre-addestrare a causa della loro vasta scala. La crescita del modello emerge come un approccio promettente sfruttando modelli più piccoli per accelerare l'addestramento di quelli più grandi. Tuttavia, la fattibilità di questi metodi di crescita del modello nel pre-addestramento efficiente dei LLM rimane poco esplorata. Questo lavoro identifica tre ostacoli critici: (O1) mancanza di una valutazione completa, (O2) fattibilità non testata per il ridimensionamento e (O3) mancanza di linee guida empiriche. Per affrontare O1, riassumiamo gli approcci esistenti in quattro operatori di crescita atomici e li valutiamo sistematicamente in un contesto standardizzato di pre-addestramento di LLM. I nostri risultati rivelano che un operatore di impilamento in profondità, chiamato G_{stack}, mostra un'accelerazione notevole nell'addestramento, portando a una riduzione della perdita e a un miglioramento delle prestazioni complessive su otto benchmark NLP standard rispetto a baseline solide. Motivati da questi risultati promettenti, conduciamo esperimenti estesi per approfondire G_{stack} per affrontare O2 e O3. Per O2 (scalabilità non testata), il nostro studio mostra che G_{stack} è scalabile e performa costantemente bene, con esperimenti fino a LLM da 7B dopo la crescita e pre-addestramento di LLM con 750B token. Ad esempio, rispetto a un modello da 7B addestrato convenzionalmente utilizzando 300B token, il nostro modello G_{stack} converge alla stessa perdita con 194B token, risultando in un'accelerazione del 54,6%. Affrontiamo ulteriormente O3 (mancanza di linee guida empiriche) formalizzando linee guida per determinare il momento della crescita e il fattore di crescita per G_{stack}, rendendolo pratico nel pre-addestramento generale dei LLM. Forniamo anche discussioni approfondite e studi di ablazione completi su G_{stack}. Il nostro codice e il modello pre-addestrato sono disponibili su https://llm-stacking.github.io/{https://llm-stacking.github.io/}.

English

LLMs are computationally expensive to pre-train due to their large scale. Model growth emerges as a promising approach by leveraging smaller models to accelerate the training of larger ones. However, the viability of these model growth methods in efficient LLM pre-training remains underexplored. This work identifies three critical textit{O}bstacles: (O1) lack of comprehensive evaluation, (O2) untested viability for scaling, and (O3) lack of empirical guidelines. To tackle O1, we summarize existing approaches into four atomic growth operators and systematically evaluate them in a standardized LLM pre-training setting. Our findings reveal that a depthwise stacking operator, called G_{stack}, exhibits remarkable acceleration in training, leading to decreased loss and improved overall performance on eight standard NLP benchmarks compared to strong baselines. Motivated by these promising results, we conduct extensive experiments to delve deeper into G_{stack} to address O2 and O3. For O2 (untested scalability), our study shows that G_{stack} is scalable and consistently performs well, with experiments up to 7B LLMs after growth and pre-training LLMs with 750B tokens. For example, compared to a conventionally trained 7B model using 300B tokens, our G_{stack} model converges to the same loss with 194B tokens, resulting in a 54.6\% speedup. We further address O3 (lack of empirical guidelines) by formalizing guidelines to determine growth timing and growth factor for G_{stack}, making it practical in general LLM pre-training. We also provide in-depth discussions and comprehensive ablation studies of G_{stack}. Our code and pre-trained model are available at https://llm-stacking.github.io/{https://llm-stacking.github.io/}.

Impilare i tuoi Transformer: Un'analisi approfondita della crescita del modello per un pre-addestramento efficiente di LLM

Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

Abstract

Support