팔로마: 언어 모델 적합성 평가를 위한 벤치마크
Paloma: A Benchmark for Evaluating Language Model Fit
December 16, 2023
저자: Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge
cs.AI
초록
언어 모델(LMs)은 일반적으로 훈련에서 제외된 단일 데이터에 대한 복잡도(perplexity)를 보고합니다. 이 데이터는 암묵적으로 또는 명시적으로 다양한 언어 분포를 가진 도메인들로 구성됩니다. 하나의 분포에서의 복잡도가 다른 분포로 외삽된다고 가정하는 대신, 언어 모델 평가를 위한 복잡도 분석(Paloma)은 nytimes.com부터 Reddit의 r/depression까지 585개의 텍스트 도메인에 대한 언어 모델의 적합성을 측정합니다. 우리는 벤치마크에 대한 제출을 요청하며, 사전 훈련에서 벤치마크 오염 제거와 같은 지침 준수 여부를 기준으로 결과를 비교 가능성에 따라 정리합니다. 제출물은 또한 매개변수와 훈련 토큰 수를 기록하여 이러한 비용 측정치에 따른 성능의 파레토 효율성을 비교할 수 있도록 합니다. 우리는 인기 있는 코퍼스로 사전 훈련된 6개의 기준 모델의 결과로 벤치마크를 구성합니다. 사례 연구에서 우리는 Paloma를 통해 가능한 분석을 보여주며, Common Crawl을 넘어서는 데이터 없이 사전 훈련을 수행하면 많은 도메인에 대한 일관되지 않은 적합성을 초래한다는 점을 발견합니다.
English
Language models (LMs) commonly report perplexity on monolithic data held out
from training. Implicitly or explicitly, this data is composed of
domainsx2013varying distributions of language. Rather than assuming
perplexity on one distribution extrapolates to others, Perplexity Analysis for
Language Model Assessment (Paloma), measures LM fit to 585 text domains,
ranging from nytimes.com to r/depression on Reddit. We invite submissions to
our benchmark and organize results by comparability based on compliance with
guidelines such as removal of benchmark contamination from pretraining.
Submissions can also record parameter and training token count to make
comparisons of Pareto efficiency for performance as a function of these
measures of cost. We populate our benchmark with results from 6 baselines
pretrained on popular corpora. In case studies, we demonstrate analyses that
are possible with Paloma, such as finding that pretraining without data beyond
Common Crawl leads to inconsistent fit to many domains.