Progrès algorithmique dans les modèles de langage

papers.abstract

Nous étudions le rythme auquel les algorithmes de pré-entraînement des modèles de langage se sont améliorés depuis l'avènement de l'apprentissage profond. En utilisant un ensemble de données de plus de 200 évaluations de modèles de langage sur Wikitext et Penn Treebank couvrant la période 2012-2023, nous constatons que la puissance de calcul nécessaire pour atteindre un seuil de performance donné a été divisée par deux environ tous les 8 mois, avec un intervalle de confiance à 95 % d'environ 5 à 14 mois, ce qui est nettement plus rapide que les gains matériels prévus par la loi de Moore. Nous estimons des lois d'échelle augmentées, qui nous permettent de quantifier les progrès algorithmiques et de déterminer les contributions relatives de la mise à l'échelle des modèles par rapport aux innovations dans les algorithmes d'entraînement. Malgré le rythme rapide des progrès algorithmiques et le développement de nouvelles architectures telles que le transformeur, notre analyse révèle que l'augmentation de la puissance de calcul a contribué de manière encore plus significative aux améliorations globales des performances au cours de cette période. Bien que limitée par des données de référence bruitées, notre analyse quantifie les progrès rapides dans la modélisation du langage, mettant en lumière les contributions relatives de la puissance de calcul et des algorithmes.

English

We investigate the rate at which algorithms for pre-training language models have improved since the advent of deep learning. Using a dataset of over 200 language model evaluations on Wikitext and Penn Treebank spanning 2012-2023, we find that the compute required to reach a set performance threshold has halved approximately every 8 months, with a 95% confidence interval of around 5 to 14 months, substantially faster than hardware gains per Moore's Law. We estimate augmented scaling laws, which enable us to quantify algorithmic progress and determine the relative contributions of scaling models versus innovations in training algorithms. Despite the rapid pace of algorithmic progress and the development of new architectures such as the transformer, our analysis reveals that the increase in compute made an even larger contribution to overall performance improvements over this time period. Though limited by noisy benchmark data, our analysis quantifies the rapid progress in language modeling, shedding light on the relative contributions from compute and algorithms.

Progrès algorithmique dans les modèles de langage

Algorithmic progress in language models

papers.abstract

Support