ChatPaper.aiChatPaper

Progresso algorítmico em modelos de linguagem

Algorithmic progress in language models

March 9, 2024
Autores: Anson Ho, Tamay Besiroglu, Ege Erdil, David Owen, Robi Rahman, Zifan Carl Guo, David Atkinson, Neil Thompson, Jaime Sevilla
cs.AI

Resumo

Investigamos a taxa de melhoria dos algoritmos para pré-treinamento de modelos de linguagem desde o advento do aprendizado profundo. Utilizando um conjunto de dados com mais de 200 avaliações de modelos de linguagem no Wikitext e no Penn Treebank, abrangendo o período de 2012 a 2023, descobrimos que o poder computacional necessário para atingir um determinado limiar de desempenho foi reduzido pela metade aproximadamente a cada 8 meses, com um intervalo de confiança de 95% entre 5 e 14 meses, um ritmo substancialmente mais rápido do que os ganhos de hardware previstos pela Lei de Moore. Estimamos leis de escala aprimoradas, que nos permitem quantificar o progresso algorítmico e determinar as contribuições relativas do dimensionamento de modelos em relação às inovações nos algoritmos de treinamento. Apesar do ritmo acelerado do progresso algorítmico e do desenvolvimento de novas arquiteturas, como o transformer, nossa análise revela que o aumento no poder computacional teve uma contribuição ainda maior para as melhorias gerais de desempenho nesse período. Embora limitada por dados de benchmarks ruidosos, nossa análise quantifica o rápido progresso na modelagem de linguagem, lançando luz sobre as contribuições relativas do poder computacional e dos algoritmos.
English
We investigate the rate at which algorithms for pre-training language models have improved since the advent of deep learning. Using a dataset of over 200 language model evaluations on Wikitext and Penn Treebank spanning 2012-2023, we find that the compute required to reach a set performance threshold has halved approximately every 8 months, with a 95% confidence interval of around 5 to 14 months, substantially faster than hardware gains per Moore's Law. We estimate augmented scaling laws, which enable us to quantify algorithmic progress and determine the relative contributions of scaling models versus innovations in training algorithms. Despite the rapid pace of algorithmic progress and the development of new architectures such as the transformer, our analysis reveals that the increase in compute made an even larger contribution to overall performance improvements over this time period. Though limited by noisy benchmark data, our analysis quantifies the rapid progress in language modeling, shedding light on the relative contributions from compute and algorithms.
PDF201December 15, 2024