ChatPaper.aiChatPaper

Paloma: Ein Benchmark zur Bewertung der Modellgüte von Sprachmodellen

Paloma: A Benchmark for Evaluating Language Model Fit

December 16, 2023
Autoren: Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge
cs.AI

Zusammenfassung

Sprachmodelle (LMs) berichten üblicherweise die Perplexität auf monolithischen Daten, die vom Training ausgeschlossen wurden. Implizit oder explizit setzt sich diese Daten aus Domänen zusammen – unterschiedlichen Verteilungen von Sprache. Anstatt anzunehmen, dass die Perplexität auf einer Verteilung auf andere extrapoliert werden kann, misst die Perplexity Analysis for Language Model Assessment (Paloma) die Anpassung von LMs an 585 Textdomänen, die von nytimes.com bis hin zu r/depression auf Reddit reichen. Wir laden Einreichungen zu unserem Benchmark ein und organisieren die Ergebnisse nach Vergleichbarkeit basierend auf der Einhaltung von Richtlinien wie der Entfernung von Benchmark-Kontamination aus dem Vortraining. Einreichungen können auch Parameter und die Anzahl der Trainings-Tokens erfassen, um Vergleiche der Pareto-Effizienz für die Leistung als Funktion dieser Kostenmaße zu ermöglichen. Wir füllen unseren Benchmark mit Ergebnissen von 6 Baselines, die auf gängigen Korpora vortrainiert wurden. In Fallstudien demonstrieren wir Analysen, die mit Paloma möglich sind, wie z.B. die Erkenntnis, dass ein Vortraining ohne Daten über Common Crawl hinaus zu einer inkonsistenten Anpassung an viele Domänen führt.
English
Language models (LMs) commonly report perplexity on monolithic data held out from training. Implicitly or explicitly, this data is composed of domainsx2013varying distributions of language. Rather than assuming perplexity on one distribution extrapolates to others, Perplexity Analysis for Language Model Assessment (Paloma), measures LM fit to 585 text domains, ranging from nytimes.com to r/depression on Reddit. We invite submissions to our benchmark and organize results by comparability based on compliance with guidelines such as removal of benchmark contamination from pretraining. Submissions can also record parameter and training token count to make comparisons of Pareto efficiency for performance as a function of these measures of cost. We populate our benchmark with results from 6 baselines pretrained on popular corpora. In case studies, we demonstrate analyses that are possible with Paloma, such as finding that pretraining without data beyond Common Crawl leads to inconsistent fit to many domains.
PDF132December 15, 2024