Progrès algorithmique dans les modèles de langage
Algorithmic progress in language models
March 9, 2024
Auteurs: Anson Ho, Tamay Besiroglu, Ege Erdil, David Owen, Robi Rahman, Zifan Carl Guo, David Atkinson, Neil Thompson, Jaime Sevilla
cs.AI
Résumé
Nous étudions le rythme auquel les algorithmes de pré-entraînement des modèles de langage se sont améliorés depuis l'avènement de l'apprentissage profond. En utilisant un ensemble de données de plus de 200 évaluations de modèles de langage sur Wikitext et Penn Treebank couvrant la période 2012-2023, nous constatons que la puissance de calcul nécessaire pour atteindre un seuil de performance donné a été divisée par deux environ tous les 8 mois, avec un intervalle de confiance à 95 % d'environ 5 à 14 mois, ce qui est nettement plus rapide que les gains matériels prévus par la loi de Moore. Nous estimons des lois d'échelle augmentées, qui nous permettent de quantifier les progrès algorithmiques et de déterminer les contributions relatives de la mise à l'échelle des modèles par rapport aux innovations dans les algorithmes d'entraînement. Malgré le rythme rapide des progrès algorithmiques et le développement de nouvelles architectures telles que le transformeur, notre analyse révèle que l'augmentation de la puissance de calcul a contribué de manière encore plus significative aux améliorations globales des performances au cours de cette période. Bien que limitée par des données de référence bruitées, notre analyse quantifie les progrès rapides dans la modélisation du langage, mettant en lumière les contributions relatives de la puissance de calcul et des algorithmes.
English
We investigate the rate at which algorithms for pre-training language models
have improved since the advent of deep learning. Using a dataset of over 200
language model evaluations on Wikitext and Penn Treebank spanning 2012-2023, we
find that the compute required to reach a set performance threshold has halved
approximately every 8 months, with a 95% confidence interval of around 5 to 14
months, substantially faster than hardware gains per Moore's Law. We estimate
augmented scaling laws, which enable us to quantify algorithmic progress and
determine the relative contributions of scaling models versus innovations in
training algorithms. Despite the rapid pace of algorithmic progress and the
development of new architectures such as the transformer, our analysis reveals
that the increase in compute made an even larger contribution to overall
performance improvements over this time period. Though limited by noisy
benchmark data, our analysis quantifies the rapid progress in language
modeling, shedding light on the relative contributions from compute and
algorithms.Summary
AI-Generated Summary