언어 모델의 알고리즘적 진보
Algorithmic progress in language models
March 9, 2024
저자: Anson Ho, Tamay Besiroglu, Ege Erdil, David Owen, Robi Rahman, Zifan Carl Guo, David Atkinson, Neil Thompson, Jaime Sevilla
cs.AI
초록
우리는 딥러닝의 등장 이후 언어 모델 사전 학습 알고리즘의 개선 속도를 조사했습니다. 2012년부터 2023년까지 Wikitext와 Penn Treebank에서 수행된 200개 이상의 언어 모델 평가 데이터셋을 사용하여, 특정 성능 임계값에 도달하는 데 필요한 계산량이 약 8개월마다 절반으로 줄어들었음을 발견했습니다. 이때 95% 신뢰 구간은 약 5개월에서 14개월로, 이는 무어의 법칙에 따른 하드웨어 성능 향상보다 훨씬 빠른 속도입니다. 우리는 확장 법칙을 보완하여 알고리즘의 진전을 정량화하고, 모델 규모 확장과 훈련 알고리즘 혁신의 상대적 기여도를 측정했습니다. 트랜스포머와 같은 새로운 아키텍처의 개발과 알고리즘의 급속한 발전에도 불구하고, 우리의 분석은 이 기간 동안 전체 성능 향상에 계산량 증가가 더 큰 기여를 했음을 보여줍니다. 노이즈가 있는 벤치마크 데이터로 인해 제한적이지만, 우리의 분석은 언어 모델링의 빠른 진전을 정량화하며, 계산량과 알고리즘이 각각 기여한 상대적 역할을 밝혀냈습니다.
English
We investigate the rate at which algorithms for pre-training language models
have improved since the advent of deep learning. Using a dataset of over 200
language model evaluations on Wikitext and Penn Treebank spanning 2012-2023, we
find that the compute required to reach a set performance threshold has halved
approximately every 8 months, with a 95% confidence interval of around 5 to 14
months, substantially faster than hardware gains per Moore's Law. We estimate
augmented scaling laws, which enable us to quantify algorithmic progress and
determine the relative contributions of scaling models versus innovations in
training algorithms. Despite the rapid pace of algorithmic progress and the
development of new architectures such as the transformer, our analysis reveals
that the increase in compute made an even larger contribution to overall
performance improvements over this time period. Though limited by noisy
benchmark data, our analysis quantifies the rapid progress in language
modeling, shedding light on the relative contributions from compute and
algorithms.Summary
AI-Generated Summary