Сравнение оптимизаторов для предварительного обучения больших языковых моделей
Benchmarking Optimizers for Large Language Model Pretraining
September 1, 2025
Авторы: Andrei Semenov, Matteo Pagliardini, Martin Jaggi
cs.AI
Аннотация
Недавнее развитие крупных языковых моделей (LLM) сопровождалось всплеском новых идей и методов для более эффективной оптимизации потерь в моделях глубокого обучения. Утверждения, связанные с этими методами, многочисленны: от ускоренной сходимости до устранения зависимости от определённых гиперпараметров. Однако разнообразие экспериментальных протоколов, используемых для проверки этих утверждений, затрудняет прямое сравнение методов. В данном исследовании представлена всесторонняя оценка современных техник оптимизации в стандартизированных сценариях предварительного обучения LLM, с систематическим варьированием размера модели, размера пакета и продолжительности обучения. Благодаря тщательной настройке каждого метода, мы предоставляем практикам рекомендации о том, какой оптимизатор лучше всего подходит для каждого сценария. Для исследователей наша работа выделяет перспективные направления для будущих исследований в области оптимизации. Наконец, публикуя наш код и обеспечивая полную воспроизводимость всех экспериментов, мы надеемся, что наши усилия помогут в разработке и строгом тестировании будущих методов.
English
The recent development of Large Language Models (LLMs) has been accompanied
by an effervescence of novel ideas and methods to better optimize the loss of
deep learning models. Claims from those methods are myriad: from faster
convergence to removing reliance on certain hyperparameters. However, the
diverse experimental protocols used to validate these claims make direct
comparisons between methods challenging. This study presents a comprehensive
evaluation of recent optimization techniques across standardized LLM
pretraining scenarios, systematically varying model size, batch size, and
training duration. Through careful tuning of each method, we provide guidance
to practitioners on which optimizer is best suited for each scenario. For
researchers, our work highlights promising directions for future optimization
research. Finally, by releasing our code and making all experiments fully
reproducible, we hope our efforts can help the development and rigorous
benchmarking of future methods.