Paloma: 言語モデルの適合性評価のためのベンチマーク
Paloma: A Benchmark for Evaluating Language Model Fit
December 16, 2023
著者: Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge
cs.AI
要旨
言語モデル(LM)は通常、訓練から除外された単一のデータセットに対するパープレキシティを報告する。このデータは、明示的または暗黙的に、さまざまな言語の分布からなるドメインで構成されている。一つの分布におけるパープレキシティが他の分布にも外挿されると仮定するのではなく、言語モデル評価のためのパープレキシティ分析(Paloma)は、nytimes.comからRedditのr/depressionまで、585のテキストドメインに対するLMの適合度を測定する。我々はベンチマークへの提出を呼びかけ、事前学習からのベンチマーク汚染の除去などのガイドラインへの準拠に基づいて、結果を比較可能性に応じて整理する。提出では、パラメータ数や訓練トークン数も記録し、これらのコスト指標に対する性能のパレート効率の比較を可能にする。我々は、人気のあるコーパスで事前学習された6つのベースラインの結果をベンチマークに追加する。ケーススタディでは、Common Crawl以外のデータなしで事前学習を行うと、多くのドメインへの適合が一貫しないことを発見するなど、Palomaで可能な分析を実証する。
English
Language models (LMs) commonly report perplexity on monolithic data held out
from training. Implicitly or explicitly, this data is composed of
domainsx2013varying distributions of language. Rather than assuming
perplexity on one distribution extrapolates to others, Perplexity Analysis for
Language Model Assessment (Paloma), measures LM fit to 585 text domains,
ranging from nytimes.com to r/depression on Reddit. We invite submissions to
our benchmark and organize results by comparability based on compliance with
guidelines such as removal of benchmark contamination from pretraining.
Submissions can also record parameter and training token count to make
comparisons of Pareto efficiency for performance as a function of these
measures of cost. We populate our benchmark with results from 6 baselines
pretrained on popular corpora. In case studies, we demonstrate analyses that
are possible with Paloma, such as finding that pretraining without data beyond
Common Crawl leads to inconsistent fit to many domains.