Сравнение оптимизаторов для предварительного обучения больших языковых моделей

Аннотация

Недавнее развитие крупных языковых моделей (LLM) сопровождалось всплеском новых идей и методов для более эффективной оптимизации потерь в моделях глубокого обучения. Утверждения, связанные с этими методами, многочисленны: от ускоренной сходимости до устранения зависимости от определённых гиперпараметров. Однако разнообразие экспериментальных протоколов, используемых для проверки этих утверждений, затрудняет прямое сравнение методов. В данном исследовании представлена всесторонняя оценка современных техник оптимизации в стандартизированных сценариях предварительного обучения LLM, с систематическим варьированием размера модели, размера пакета и продолжительности обучения. Благодаря тщательной настройке каждого метода, мы предоставляем практикам рекомендации о том, какой оптимизатор лучше всего подходит для каждого сценария. Для исследователей наша работа выделяет перспективные направления для будущих исследований в области оптимизации. Наконец, публикуя наш код и обеспечивая полную воспроизводимость всех экспериментов, мы надеемся, что наши усилия помогут в разработке и строгом тестировании будущих методов.

English

The recent development of Large Language Models (LLMs) has been accompanied by an effervescence of novel ideas and methods to better optimize the loss of deep learning models. Claims from those methods are myriad: from faster convergence to removing reliance on certain hyperparameters. However, the diverse experimental protocols used to validate these claims make direct comparisons between methods challenging. This study presents a comprehensive evaluation of recent optimization techniques across standardized LLM pretraining scenarios, systematically varying model size, batch size, and training duration. Through careful tuning of each method, we provide guidance to practitioners on which optimizer is best suited for each scenario. For researchers, our work highlights promising directions for future optimization research. Finally, by releasing our code and making all experiments fully reproducible, we hope our efforts can help the development and rigorous benchmarking of future methods.

Сравнение оптимизаторов для предварительного обучения больших языковых моделей

Benchmarking Optimizers for Large Language Model Pretraining

Аннотация

Support