ChatPaper.aiChatPaper

Paloma: Un Benchmark per Valutare l'Adattamento dei Modelli Linguistici

Paloma: A Benchmark for Evaluating Language Model Fit

December 16, 2023
Autori: Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge
cs.AI

Abstract

I modelli linguistici (LM) comunemente riportano la perplessità su dati monolitici esclusi dall'addestramento. Implicitamente o esplicitamente, questi dati sono composti da domini – distribuzioni variabili del linguaggio. Piuttosto che assumere che la perplessità su una distribuzione si estrapoli ad altre, Perplexity Analysis for Language Model Assessment (Paloma) misura l'adattamento del modello linguistico a 585 domini di testo, che vanno da nytimes.com a r/depression su Reddit. Invitiamo a presentare contributi al nostro benchmark e organizziamo i risultati in base alla comparabilità, considerando il rispetto di linee guida come la rimozione della contaminazione del benchmark dal pre-addestramento. I contributi possono anche registrare il numero di parametri e di token di addestramento per consentire confronti di efficienza di Pareto in termini di prestazioni in funzione di queste misure di costo. Popoliamo il nostro benchmark con i risultati di 6 baseline pre-addestrate su corpora popolari. In casi di studio, dimostriamo analisi possibili con Paloma, come scoprire che il pre-addestramento senza dati oltre Common Crawl porta a un adattamento incoerente a molti domini.
English
Language models (LMs) commonly report perplexity on monolithic data held out from training. Implicitly or explicitly, this data is composed of domainsx2013varying distributions of language. Rather than assuming perplexity on one distribution extrapolates to others, Perplexity Analysis for Language Model Assessment (Paloma), measures LM fit to 585 text domains, ranging from nytimes.com to r/depression on Reddit. We invite submissions to our benchmark and organize results by comparability based on compliance with guidelines such as removal of benchmark contamination from pretraining. Submissions can also record parameter and training token count to make comparisons of Pareto efficiency for performance as a function of these measures of cost. We populate our benchmark with results from 6 baselines pretrained on popular corpora. In case studies, we demonstrate analyses that are possible with Paloma, such as finding that pretraining without data beyond Common Crawl leads to inconsistent fit to many domains.
PDF132March 20, 2026