Алгоритмический прогресс в языковых моделях
Algorithmic progress in language models
March 9, 2024
Авторы: Anson Ho, Tamay Besiroglu, Ege Erdil, David Owen, Robi Rahman, Zifan Carl Guo, David Atkinson, Neil Thompson, Jaime Sevilla
cs.AI
Аннотация
Мы исследуем темп, с которым алгоритмы для предварительного обучения языковых моделей улучшились с момента появления глубокого обучения. Используя набор данных из более чем 200 оценок языковых моделей на Wikitext и Penn Treebank за период с 2012 по 2023 год, мы обнаружили, что вычислительные ресурсы, необходимые для достижения установленного порога производительности, уменьшаются примерно вдвое каждые 8 месяцев, с доверительным интервалом 95% около 5 до 14 месяцев, что существенно быстрее, чем улучшения аппаратного обеспечения согласно закону Мура. Мы оцениваем дополнительные законы масштабирования, которые позволяют нам количественно оценить прогресс алгоритмов и определить относительный вклад масштабирования моделей по сравнению с инновациями в алгоритмах обучения. Несмотря на быстрый темп алгоритмического прогресса и разработку новых архитектур, таких как трансформер, наш анализ показывает, что увеличение вычислительных ресурсов внесло еще более значительный вклад в общее улучшение производительности за этот период времени. Хотя наш анализ ограничен шумными данными оценки, он количественно оценивает быстрый прогресс в языковом моделировании, проливая свет на относительный вклад вычислений и алгоритмов.
English
We investigate the rate at which algorithms for pre-training language models
have improved since the advent of deep learning. Using a dataset of over 200
language model evaluations on Wikitext and Penn Treebank spanning 2012-2023, we
find that the compute required to reach a set performance threshold has halved
approximately every 8 months, with a 95% confidence interval of around 5 to 14
months, substantially faster than hardware gains per Moore's Law. We estimate
augmented scaling laws, which enable us to quantify algorithmic progress and
determine the relative contributions of scaling models versus innovations in
training algorithms. Despite the rapid pace of algorithmic progress and the
development of new architectures such as the transformer, our analysis reveals
that the increase in compute made an even larger contribution to overall
performance improvements over this time period. Though limited by noisy
benchmark data, our analysis quantifies the rapid progress in language
modeling, shedding light on the relative contributions from compute and
algorithms.Summary
AI-Generated Summary