Paloma : Un benchmark pour évaluer l'adéquation des modèles de langage
Paloma: A Benchmark for Evaluating Language Model Fit
December 16, 2023
papers.authors: Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge
cs.AI
papers.abstract
Les modèles de langage (LMs) rapportent couramment la perplexité sur des données monolithiques retenues lors de l'entraînement. Implicitement ou explicitement, ces données sont composées de domaines – des distributions variées de langage. Plutôt que de supposer que la perplexité sur une distribution s'étend à d'autres, l'Analyse de Perplexité pour l'Évaluation des Modèles de Langage (Paloma) mesure l'ajustement des LMs à 585 domaines de texte, allant de nytimes.com à r/depression sur Reddit. Nous invitons les soumissions à notre benchmark et organisons les résultats par comparabilité, basée sur le respect de directives telles que l'élimination de la contamination du benchmark lors du prétraitement. Les soumissions peuvent également enregistrer le nombre de paramètres et de tokens d'entraînement pour permettre des comparaisons d'efficacité Pareto en fonction de ces mesures de coût. Nous peuplons notre benchmark avec les résultats de 6 modèles de référence prétraités sur des corpus populaires. Dans des études de cas, nous démontrons des analyses possibles avec Paloma, comme le constat que le prétraitement sans données au-delà de Common Crawl conduit à un ajustement incohérent à de nombreux domaines.
English
Language models (LMs) commonly report perplexity on monolithic data held out
from training. Implicitly or explicitly, this data is composed of
domainsx2013varying distributions of language. Rather than assuming
perplexity on one distribution extrapolates to others, Perplexity Analysis for
Language Model Assessment (Paloma), measures LM fit to 585 text domains,
ranging from nytimes.com to r/depression on Reddit. We invite submissions to
our benchmark and organize results by comparability based on compliance with
guidelines such as removal of benchmark contamination from pretraining.
Submissions can also record parameter and training token count to make
comparisons of Pareto efficiency for performance as a function of these
measures of cost. We populate our benchmark with results from 6 baselines
pretrained on popular corpora. In case studies, we demonstrate analyses that
are possible with Paloma, such as finding that pretraining without data beyond
Common Crawl leads to inconsistent fit to many domains.