ChatPaper.aiChatPaper

Algorithmische vooruitgang in taalmodelle

Algorithmic progress in language models

March 9, 2024
Auteurs: Anson Ho, Tamay Besiroglu, Ege Erdil, David Owen, Robi Rahman, Zifan Carl Guo, David Atkinson, Neil Thompson, Jaime Sevilla
cs.AI

Samenvatting

We onderzoeken de snelheid waarmee algoritmen voor het vooraf trainen van taalmodelen zijn verbeterd sinds de opkomst van deep learning. Met behulp van een dataset van meer dan 200 evaluaties van taalmodelen op Wikitext en Penn Treebank uit de periode 2012-2023, constateren we dat de benodigde rekenkracht om een bepaalde prestatiegrens te bereiken ongeveer elke 8 maanden is gehalveerd, met een 95% betrouwbaarheidsinterval van ongeveer 5 tot 14 maanden, aanzienlijk sneller dan de hardwarewinsten volgens de Wet van Moore. We schatten uitgebreide schaalwetten in, waarmee we algoritmische vooruitgang kunnen kwantificeren en de relatieve bijdragen van het schalen van modellen versus innovaties in trainingsalgoritmen kunnen bepalen. Ondanks het snelle tempo van algoritmische vooruitgang en de ontwikkeling van nieuwe architecturen zoals de transformer, toont onze analyse aan dat de toename in rekenkracht een nog grotere bijdrage heeft geleverd aan de algehele prestatieverbeteringen in deze periode. Hoewel beperkt door ruis in benchmarkgegevens, kwantificeert onze analyse de snelle vooruitgang in taalmodelering en werpt het licht op de relatieve bijdragen van rekenkracht en algoritmen.
English
We investigate the rate at which algorithms for pre-training language models have improved since the advent of deep learning. Using a dataset of over 200 language model evaluations on Wikitext and Penn Treebank spanning 2012-2023, we find that the compute required to reach a set performance threshold has halved approximately every 8 months, with a 95% confidence interval of around 5 to 14 months, substantially faster than hardware gains per Moore's Law. We estimate augmented scaling laws, which enable us to quantify algorithmic progress and determine the relative contributions of scaling models versus innovations in training algorithms. Despite the rapid pace of algorithmic progress and the development of new architectures such as the transformer, our analysis reveals that the increase in compute made an even larger contribution to overall performance improvements over this time period. Though limited by noisy benchmark data, our analysis quantifies the rapid progress in language modeling, shedding light on the relative contributions from compute and algorithms.
PDF201December 15, 2024