Paloma: Un punto de referencia para evaluar la adecuación de los modelos de lenguaje
Paloma: A Benchmark for Evaluating Language Model Fit
December 16, 2023
Autores: Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge
cs.AI
Resumen
Los modelos de lenguaje (LM, por sus siglas en inglés) suelen reportar perplejidad sobre datos monolíticos reservados para evaluación, separados del entrenamiento. Implícita o explícitamente, estos datos están compuestos por dominiosx2013distribuciones variadas del lenguaje. En lugar de asumir que la perplejidad en una distribución se extrapola a otras, el Análisis de Perplejidad para la Evaluación de Modelos de Lenguaje (Paloma) mide el ajuste de los LM a 585 dominios de texto, que van desde nytimes.com hasta r/depression en Reddit. Invitamos a presentar propuestas a nuestro benchmark y organizamos los resultados según su comparabilidad, basándonos en el cumplimiento de pautas como la eliminación de la contaminación del benchmark durante el preentrenamiento. Las propuestas también pueden registrar el número de parámetros y tokens de entrenamiento para permitir comparaciones de eficiencia de Pareto en función de estas medidas de costo. Hemos poblado nuestro benchmark con resultados de 6 modelos base preentrenados en corpus populares. En estudios de caso, demostramos análisis posibles con Paloma, como descubrir que el preentrenamiento sin datos más allá de Common Crawl conduce a un ajuste inconsistente en muchos dominios.
English
Language models (LMs) commonly report perplexity on monolithic data held out
from training. Implicitly or explicitly, this data is composed of
domainsx2013varying distributions of language. Rather than assuming
perplexity on one distribution extrapolates to others, Perplexity Analysis for
Language Model Assessment (Paloma), measures LM fit to 585 text domains,
ranging from nytimes.com to r/depression on Reddit. We invite submissions to
our benchmark and organize results by comparability based on compliance with
guidelines such as removal of benchmark contamination from pretraining.
Submissions can also record parameter and training token count to make
comparisons of Pareto efficiency for performance as a function of these
measures of cost. We populate our benchmark with results from 6 baselines
pretrained on popular corpora. In case studies, we demonstrate analyses that
are possible with Paloma, such as finding that pretraining without data beyond
Common Crawl leads to inconsistent fit to many domains.