ChatPaper.aiChatPaper

Paloma : Un benchmark pour évaluer l'adéquation des modèles de langage

Paloma: A Benchmark for Evaluating Language Model Fit

December 16, 2023
papers.authors: Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge
cs.AI

papers.abstract

Les modèles de langage (LMs) rapportent couramment la perplexité sur des données monolithiques retenues lors de l'entraînement. Implicitement ou explicitement, ces données sont composées de domaines – des distributions variées de langage. Plutôt que de supposer que la perplexité sur une distribution s'étend à d'autres, l'Analyse de Perplexité pour l'Évaluation des Modèles de Langage (Paloma) mesure l'ajustement des LMs à 585 domaines de texte, allant de nytimes.com à r/depression sur Reddit. Nous invitons les soumissions à notre benchmark et organisons les résultats par comparabilité, basée sur le respect de directives telles que l'élimination de la contamination du benchmark lors du prétraitement. Les soumissions peuvent également enregistrer le nombre de paramètres et de tokens d'entraînement pour permettre des comparaisons d'efficacité Pareto en fonction de ces mesures de coût. Nous peuplons notre benchmark avec les résultats de 6 modèles de référence prétraités sur des corpus populaires. Dans des études de cas, nous démontrons des analyses possibles avec Paloma, comme le constat que le prétraitement sans données au-delà de Common Crawl conduit à un ajustement incohérent à de nombreux domaines.
English
Language models (LMs) commonly report perplexity on monolithic data held out from training. Implicitly or explicitly, this data is composed of domainsx2013varying distributions of language. Rather than assuming perplexity on one distribution extrapolates to others, Perplexity Analysis for Language Model Assessment (Paloma), measures LM fit to 585 text domains, ranging from nytimes.com to r/depression on Reddit. We invite submissions to our benchmark and organize results by comparability based on compliance with guidelines such as removal of benchmark contamination from pretraining. Submissions can also record parameter and training token count to make comparisons of Pareto efficiency for performance as a function of these measures of cost. We populate our benchmark with results from 6 baselines pretrained on popular corpora. In case studies, we demonstrate analyses that are possible with Paloma, such as finding that pretraining without data beyond Common Crawl leads to inconsistent fit to many domains.
PDF132December 15, 2024