ChatPaper.aiChatPaper

Paloma: Een Benchmark voor het Evalueren van Taalmodelpassendheid

Paloma: A Benchmark for Evaluating Language Model Fit

December 16, 2023
Auteurs: Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge
cs.AI

Samenvatting

Taalmodelen (LMs) rapporteren doorgaans perplexiteit op monolitische data die buiten de training zijn gehouden. Impliciet of expliciet bestaat deze data uit domeinenx2013variërende distributies van taal. In plaats van aan te nemen dat perplexiteit op één distributie zich uitstrekt naar andere, meet Perplexity Analysis for Language Model Assessment (Paloma) de fit van een LM op 585 tekstdomeinen, variërend van nytimes.com tot r/depression op Reddit. Wij nodigen inzendingen uit voor onze benchmark en organiseren resultaten op basis van vergelijkbaarheid, afhankelijk van de naleving van richtlijnen zoals het verwijderen van benchmarkvervuiling uit de pretraining. Inzendingen kunnen ook het aantal parameters en trainings-tokens vastleggen om vergelijkingen van Pareto-efficiëntie te maken voor prestaties als functie van deze kostenmaatstaven. Wij vullen onze benchmark aan met resultaten van 6 baselines die zijn gepretraind op populaire corpora. In casestudies demonstreren we analyses die mogelijk zijn met Paloma, zoals de bevinding dat pretraining zonder data buiten Common Crawl leidt tot inconsistente fit op veel domeinen.
English
Language models (LMs) commonly report perplexity on monolithic data held out from training. Implicitly or explicitly, this data is composed of domainsx2013varying distributions of language. Rather than assuming perplexity on one distribution extrapolates to others, Perplexity Analysis for Language Model Assessment (Paloma), measures LM fit to 585 text domains, ranging from nytimes.com to r/depression on Reddit. We invite submissions to our benchmark and organize results by comparability based on compliance with guidelines such as removal of benchmark contamination from pretraining. Submissions can also record parameter and training token count to make comparisons of Pareto efficiency for performance as a function of these measures of cost. We populate our benchmark with results from 6 baselines pretrained on popular corpora. In case studies, we demonstrate analyses that are possible with Paloma, such as finding that pretraining without data beyond Common Crawl leads to inconsistent fit to many domains.
PDF132February 11, 2026