Progresso algoritmico nei modelli linguistici
Algorithmic progress in language models
March 9, 2024
Autori: Anson Ho, Tamay Besiroglu, Ege Erdil, David Owen, Robi Rahman, Zifan Carl Guo, David Atkinson, Neil Thompson, Jaime Sevilla
cs.AI
Abstract
Investighiamo il tasso di miglioramento degli algoritmi per il pre-training di modelli linguistici dall'avvento del deep learning. Utilizzando un dataset di oltre 200 valutazioni di modelli linguistici su Wikitext e Penn Treebank dal 2012 al 2023, scopriamo che la quantità di calcolo necessaria per raggiungere una determinata soglia di prestazioni si è dimezzata approssimativamente ogni 8 mesi, con un intervallo di confidenza del 95% compreso tra circa 5 e 14 mesi, un ritmo sostanzialmente più rapido rispetto ai guadagni hardware previsti dalla legge di Moore. Stimiamo leggi di scala aumentate, che ci permettono di quantificare il progresso algoritmico e determinare i contributi relativi del ridimensionamento dei modelli rispetto alle innovazioni negli algoritmi di addestramento. Nonostante il rapido ritmo del progresso algoritmico e lo sviluppo di nuove architetture come il transformer, la nostra analisi rivela che l'aumento della potenza di calcolo ha contribuito in misura ancora maggiore ai miglioramenti complessivi delle prestazioni in questo periodo. Sebbene limitata da dati di benchmark rumorosi, la nostra analisi quantifica il rapido progresso nella modellazione linguistica, gettando luce sui contributi relativi di calcolo e algoritmi.
English
We investigate the rate at which algorithms for pre-training language models
have improved since the advent of deep learning. Using a dataset of over 200
language model evaluations on Wikitext and Penn Treebank spanning 2012-2023, we
find that the compute required to reach a set performance threshold has halved
approximately every 8 months, with a 95% confidence interval of around 5 to 14
months, substantially faster than hardware gains per Moore's Law. We estimate
augmented scaling laws, which enable us to quantify algorithmic progress and
determine the relative contributions of scaling models versus innovations in
training algorithms. Despite the rapid pace of algorithmic progress and the
development of new architectures such as the transformer, our analysis reveals
that the increase in compute made an even larger contribution to overall
performance improvements over this time period. Though limited by noisy
benchmark data, our analysis quantifies the rapid progress in language
modeling, shedding light on the relative contributions from compute and
algorithms.