Сложение ваших трансформеров: ближайший взгляд на рост модели для эффективного предварительного обучения LLM
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training
May 24, 2024
Авторы: Wenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen, Reynold Cheng, Yike Guo, Jie Fu
cs.AI
Аннотация
LLM-модели являются вычислительно затратными для предварительного обучения из-за их большого масштаба. Подход модельного роста возникает как многообещающий способ, используя более маленькие модели для ускорения обучения более крупных. Однако жизнеспособность этих методов модельного роста в эффективном предварительном обучении LLM остается недостаточно исследованной. В данной работе выделяются три критические препятствия: (O1) недостаток комплексной оценки, (O2) непроверенная жизнеспособность для масштабирования и (O3) отсутствие эмпирических рекомендаций. Для решения O1 мы обобщаем существующие подходы на четыре атомарных оператора роста и систематически оцениваем их в стандартизированной среде предварительного обучения LLM. Наши результаты показывают, что оператор стека по глубине, называемый G_{stack}, обеспечивает заметное ускорение обучения, что приводит к снижению потерь и улучшению общей производительности на восьми стандартных бенчмарках NLP по сравнению с сильными базовыми моделями. Вдохновленные этими обнадеживающими результатами, мы проводим обширные эксперименты для более глубокого изучения G_{stack} с целью решения O2 и O3. Для O2 (непроверенная масштабируемость) наше исследование показывает, что G_{stack} масштабируем и стабильно демонстрирует хорошие результаты, с экспериментами до 7B LLM после роста и предварительного обучения LLM с 750B токенов. Например, по сравнению с традиционно обученной моделью на 7B с использованием 300B токенов, наша модель G_{stack} сходится к тем же потерям с 194B токенами, что приводит к ускорению в 54.6\%. Мы также решаем O3 (отсутствие эмпирических рекомендаций), формализуя рекомендации для определения времени роста и коэффициента роста для G_{stack}, что делает его практичным в общем предварительном обучении LLM. Мы также предоставляем подробные обсуждения и обширные исследования абляции G_{stack}. Наш код и предварительно обученная модель доступны по ссылке https://llm-stacking.github.io/.
English
LLMs are computationally expensive to pre-train due to their large scale.
Model growth emerges as a promising approach by leveraging smaller models to
accelerate the training of larger ones. However, the viability of these model
growth methods in efficient LLM pre-training remains underexplored. This work
identifies three critical textit{O}bstacles: (O1)
lack of comprehensive evaluation, (O2) untested viability for
scaling, and (O3) lack of empirical guidelines. To tackle
O1, we summarize existing approaches into four atomic growth
operators and systematically evaluate them in a standardized LLM pre-training
setting. Our findings reveal that a depthwise stacking operator, called
G_{stack}, exhibits remarkable acceleration in training, leading to
decreased loss and improved overall performance on eight standard NLP
benchmarks compared to strong baselines. Motivated by these promising results,
we conduct extensive experiments to delve deeper into G_{stack} to
address O2 and O3. For O2 (untested
scalability), our study shows that G_{stack} is scalable and
consistently performs well, with experiments up to 7B LLMs after growth and
pre-training LLMs with 750B tokens. For example, compared to a conventionally
trained 7B model using 300B tokens, our G_{stack} model converges to
the same loss with 194B tokens, resulting in a 54.6\% speedup. We further
address O3 (lack of empirical guidelines) by formalizing guidelines
to determine growth timing and growth factor for G_{stack}, making it
practical in general LLM pre-training. We also provide in-depth discussions and
comprehensive ablation studies of G_{stack}. Our code and pre-trained
model are available at
https://llm-stacking.github.io/{https://llm-stacking.github.io/}.Summary
AI-Generated Summary