ChatPaper.aiChatPaper

Paloma: Um Benchmark para Avaliar a Adequação de Modelos de Linguagem

Paloma: A Benchmark for Evaluating Language Model Fit

December 16, 2023
Autores: Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge
cs.AI

Resumo

Modelos de linguagem (LMs) comumente relatam perplexidade em dados monolíticos retidos do treinamento. Implícita ou explicitamente, esses dados são compostos por domíniosx2013distribuições variadas de linguagem. Em vez de assumir que a perplexidade em uma distribuição se extrapola para outras, a Análise de Perplexidade para Avaliação de Modelos de Linguagem (Paloma) mede o ajuste do LM a 585 domínios de texto, variando desde nytimes.com até r/depression no Reddit. Convidamos submissões ao nosso benchmark e organizamos os resultados por comparabilidade com base no cumprimento de diretrizes, como a remoção de contaminação do benchmark do pré-treinamento. As submissões também podem registrar a contagem de parâmetros e tokens de treinamento para permitir comparações de eficiência de Pareto em relação ao desempenho como função dessas medidas de custo. Populamos nosso benchmark com resultados de 6 modelos de referência pré-treinados em corpora populares. Em estudos de caso, demonstramos análises possíveis com o Paloma, como a descoberta de que o pré-treinamento sem dados além do Common Crawl resulta em um ajuste inconsistente a muitos domínios.
English
Language models (LMs) commonly report perplexity on monolithic data held out from training. Implicitly or explicitly, this data is composed of domainsx2013varying distributions of language. Rather than assuming perplexity on one distribution extrapolates to others, Perplexity Analysis for Language Model Assessment (Paloma), measures LM fit to 585 text domains, ranging from nytimes.com to r/depression on Reddit. We invite submissions to our benchmark and organize results by comparability based on compliance with guidelines such as removal of benchmark contamination from pretraining. Submissions can also record parameter and training token count to make comparisons of Pareto efficiency for performance as a function of these measures of cost. We populate our benchmark with results from 6 baselines pretrained on popular corpora. In case studies, we demonstrate analyses that are possible with Paloma, such as finding that pretraining without data beyond Common Crawl leads to inconsistent fit to many domains.
PDF132February 11, 2026