언어 모델은 과도한 학습과 다운스트림 작업에서도 안정적으로 확장 가능하다.
Language models scale reliably with over-training and on downstream tasks
March 13, 2024
저자: Samir Yitzhak Gadre, Georgios Smyrnis, Vaishaal Shankar, Suchin Gururangan, Mitchell Wortsman, Rulin Shao, Jean Mercat, Alex Fang, Jeffrey Li, Sedrick Keh, Rui Xin, Marianna Nezhurina, Igor Vasiljevic, Jenia Jitsev, Alexandros G. Dimakis, Gabriel Ilharco, Shuran Song, Thomas Kollar, Yair Carmon, Achal Dave, Reinhard Heckel, Niklas Muennighoff, Ludwig Schmidt
cs.AI
초록
스케일링 법칙은 언어 모델 개발에 유용한 지침이지만, 현재의 스케일링 연구와 언어 모델의 최종 학습 및 평가 방식 사이에는 여전히 간극이 존재합니다. 예를 들어, 스케일링은 일반적으로 컴퓨팅 최적의 학습 체제(즉, "친칠라 최적" 체제)에서 연구되지만, 실제로는 추론 비용을 줄이기 위해 모델을 과도하게 학습시키는 경우가 많습니다. 또한, 스케일링 법칙은 주로 다음 토큰 예측의 손실을 예측하지만, 궁극적으로 모델은 다운스트림 작업 성능을 기준으로 비교됩니다. 본 논문에서는 이러한 두 가지 단점을 해결하고자 합니다. 이를 위해, 우리는 0.011B에서 6.9B 파라미터를 가진 104개의 모델을 다양한 토큰 수로 세 가지 데이터 분포에서 학습시킨 테스트베드를 구축했습니다. 먼저, 과도 학습 체제에서의 스케일링을 조사합니다. 모델 파라미터 수와 학습 토큰 대 파라미터 비율 모두에서 외삽할 수 있는 스케일링 법칙을 적합시킵니다. 이를 통해 1.4B 파라미터, 900B 토큰 실행(즉, 32배 과도 학습)과 6.9B 파라미터, 138B 토큰 실행의 검증 손실을 예측할 수 있습니다. 각각의 실험은 300배 적은 컴퓨팅 자원으로 수행됩니다. 둘째, 언어 모델의 퍼플렉서티를 다운스트림 작업 성능과 관련짓는 멱법칙을 사용합니다. 이 법칙을 통해 앞서 언급한 두 모델의 다운스트림 작업 평균 상위 1 오류를 예측하며, 이 실험은 20배 적은 컴퓨팅 자원으로 수행됩니다. 우리의 실험은 https://github.com/mlfoundations/scaling에서 확인할 수 있습니다.
English
Scaling laws are useful guides for developing language models, but there are
still gaps between current scaling studies and how language models are
ultimately trained and evaluated. For instance, scaling is usually studied in
the compute-optimal training regime (i.e., "Chinchilla optimal" regime);
however, in practice, models are often over-trained to reduce inference costs.
Moreover, scaling laws mostly predict loss on next-token prediction, but
ultimately models are compared based on downstream task performance. In this
paper, we address both shortcomings. To do so, we create a testbed of 104
models with 0.011B to 6.9B parameters trained with various numbers of tokens on
three data distributions. First, we investigate scaling in the over-trained
regime. We fit scaling laws that extrapolate in both the number of model
parameters and the ratio of training tokens to parameters. This enables us to
predict the validation loss of a 1.4B parameter, 900B token run (i.e.,
32times over-trained) and a 6.9B parameter, 138B token
runx2014each from experiments that take 300times less compute.
Second, we relate the perplexity of a language model to its downstream task
performance via a power law. We use this law to predict top-1 error averaged
over downstream tasks for the two aforementioned models using experiments that
take 20times less compute. Our experiments are available at
https://github.com/mlfoundations/scaling.Summary
AI-Generated Summary