ChatPaper.aiChatPaper

Empilhando Seus Transformers: Uma Análise Detalhada do Crescimento de Modelos para o Pré-Treinamento Eficiente de LLMs

Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

May 24, 2024
Autores: Wenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen, Reynold Cheng, Yike Guo, Jie Fu
cs.AI

Resumo

LLMs são computacionalmente caros de pré-treinar devido à sua grande escala. O crescimento de modelos surge como uma abordagem promissora ao aproveitar modelos menores para acelerar o treinamento de modelos maiores. No entanto, a viabilidade desses métodos de crescimento de modelos no pré-treinamento eficiente de LLMs ainda é pouco explorada. Este trabalho identifica três obstáculos críticos: (O1) falta de avaliação abrangente, (O2) viabilidade não testada para escalonamento e (O3) falta de diretrizes empíricas. Para abordar O1, resumimos as abordagens existentes em quatro operadores atômicos de crescimento e os avaliamos sistematicamente em um ambiente padronizado de pré-treinamento de LLM. Nossos resultados revelam que um operador de empilhamento em profundidade, chamado G_{stack}, exibe uma aceleração notável no treinamento, levando a uma redução da perda e a uma melhoria no desempenho geral em oito benchmarks padrão de NLP em comparação com baselines fortes. Motivados por esses resultados promissores, realizamos experimentos extensos para investigar mais profundamente o G_{stack} a fim de abordar O2 e O3. Para O2 (escalonabilidade não testada), nosso estudo mostra que o G_{stack} é escalável e tem um desempenho consistente, com experimentos em LLMs de até 7B após o crescimento e pré-treinamento de LLMs com 750B de tokens. Por exemplo, em comparação com um modelo de 7B treinado convencionalmente usando 300B de tokens, nosso modelo G_{stack} converge para a mesma perda com 194B de tokens, resultando em uma aceleração de 54,6%. Abordamos ainda O3 (falta de diretrizes empíricas) ao formalizar diretrizes para determinar o momento do crescimento e o fator de crescimento para o G_{stack}, tornando-o prático no pré-treinamento geral de LLMs. Também fornecemos discussões detalhadas e estudos abrangentes de ablação do G_{stack}. Nosso código e modelo pré-treinado estão disponíveis em https://llm-stacking.github.io/{https://llm-stacking.github.io/}.
English
LLMs are computationally expensive to pre-train due to their large scale. Model growth emerges as a promising approach by leveraging smaller models to accelerate the training of larger ones. However, the viability of these model growth methods in efficient LLM pre-training remains underexplored. This work identifies three critical textit{O}bstacles: (O1) lack of comprehensive evaluation, (O2) untested viability for scaling, and (O3) lack of empirical guidelines. To tackle O1, we summarize existing approaches into four atomic growth operators and systematically evaluate them in a standardized LLM pre-training setting. Our findings reveal that a depthwise stacking operator, called G_{stack}, exhibits remarkable acceleration in training, leading to decreased loss and improved overall performance on eight standard NLP benchmarks compared to strong baselines. Motivated by these promising results, we conduct extensive experiments to delve deeper into G_{stack} to address O2 and O3. For O2 (untested scalability), our study shows that G_{stack} is scalable and consistently performs well, with experiments up to 7B LLMs after growth and pre-training LLMs with 750B tokens. For example, compared to a conventionally trained 7B model using 300B tokens, our G_{stack} model converges to the same loss with 194B tokens, resulting in a 54.6\% speedup. We further address O3 (lack of empirical guidelines) by formalizing guidelines to determine growth timing and growth factor for G_{stack}, making it practical in general LLM pre-training. We also provide in-depth discussions and comprehensive ablation studies of G_{stack}. Our code and pre-trained model are available at https://llm-stacking.github.io/{https://llm-stacking.github.io/}.
PDF291December 15, 2024