ChatPaper.aiChatPaper

Algorithmischer Fortschritt bei Sprachmodellen

Algorithmic progress in language models

March 9, 2024
papers.authors: Anson Ho, Tamay Besiroglu, Ege Erdil, David Owen, Robi Rahman, Zifan Carl Guo, David Atkinson, Neil Thompson, Jaime Sevilla
cs.AI

papers.abstract

Wir untersuchen die Rate, mit der sich Algorithmen zur Vorabtrainierung von Sprachmodellen seit dem Aufkommen des Deep Learning verbessert haben. Unter Verwendung eines Datensatzes von über 200 Bewertungen von Sprachmodellen auf Wikitext und Penn Treebank, die den Zeitraum von 2012 bis 2023 abdecken, stellen wir fest, dass die Rechenleistung, die erforderlich ist, um einen bestimmten Leistungsstandard zu erreichen, sich ungefähr alle 8 Monate halbiert hat, mit einem Konfidenzintervall von etwa 5 bis 14 Monaten, was wesentlich schneller ist als die Hardwareverbesserungen gemäß Moores Gesetz. Wir schätzen erweiterte Skalierungsgesetze ab, die es uns ermöglichen, den algorithmischen Fortschritt zu quantifizieren und die relativen Beiträge von Skalierungsmodellen im Vergleich zu Innovationen in den Trainingsalgorithmen zu bestimmen. Trotz des schnellen algorithmischen Fortschritts und der Entwicklung neuer Architekturen wie dem Transformer zeigt unsere Analyse, dass der Anstieg der Rechenleistung über diesen Zeitraum hinweg einen noch größeren Beitrag zu den Gesamtverbesserungen der Leistung geleistet hat. Obwohl unsere Analyse durch ungenaue Benchmark-Daten eingeschränkt ist, quantifiziert sie den schnellen Fortschritt im Bereich des Sprachmodellierens und beleuchtet die relativen Beiträge von Rechenleistung und Algorithmen.
English
We investigate the rate at which algorithms for pre-training language models have improved since the advent of deep learning. Using a dataset of over 200 language model evaluations on Wikitext and Penn Treebank spanning 2012-2023, we find that the compute required to reach a set performance threshold has halved approximately every 8 months, with a 95% confidence interval of around 5 to 14 months, substantially faster than hardware gains per Moore's Law. We estimate augmented scaling laws, which enable us to quantify algorithmic progress and determine the relative contributions of scaling models versus innovations in training algorithms. Despite the rapid pace of algorithmic progress and the development of new architectures such as the transformer, our analysis reveals that the increase in compute made an even larger contribution to overall performance improvements over this time period. Though limited by noisy benchmark data, our analysis quantifies the rapid progress in language modeling, shedding light on the relative contributions from compute and algorithms.
PDF211December 15, 2024