ChatPaper.aiChatPaper

¿Qué hay en mis grandes volúmenes de datos?

What's In My Big Data?

October 31, 2023
Autores: Yanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge
cs.AI

Resumen

Los grandes corpus de texto son la columna vertebral de los modelos de lenguaje. Sin embargo, tenemos un entendimiento limitado del contenido de estos corpus, incluyendo estadísticas generales, calidad, factores sociales y la inclusión de datos de evaluación (contaminación). En este trabajo, proponemos What's In My Big Data? (WIMBD), una plataforma y un conjunto de dieciséis análisis que nos permiten revelar y comparar el contenido de grandes corpus de texto. WIMBD se basa en dos capacidades básicas —conteo y búsqueda— a gran escala, lo que nos permite analizar más de 35 terabytes en un nodo de computación estándar. Aplicamos WIMBD a diez corpus diferentes utilizados para entrenar modelos de lenguaje populares, incluyendo C4, The Pile y RedPajama. Nuestro análisis revela varios hallazgos sorprendentes y previamente no documentados sobre estos corpus, incluyendo la alta prevalencia de contenido duplicado, sintético y de baja calidad, información personal identificable, lenguaje tóxico y contaminación de benchmarks. Por ejemplo, encontramos que alrededor del 50% de los documentos en RedPajama y LAION-2B-en son duplicados. Además, varios conjuntos de datos utilizados para evaluar modelos entrenados en dichos corpus están contaminados con respecto a benchmarks importantes, incluyendo el Winograd Schema Challenge y partes de GLUE y SuperGLUE. Hacemos público el código y los artefactos de WIMBD para proporcionar un conjunto estándar de evaluaciones para nuevos corpus basados en texto y fomentar más análisis y transparencia en torno a ellos: github.com/allenai/wimbd.
English
Large text corpora are the backbone of language models. However, we have a limited understanding of the content of these corpora, including general statistics, quality, social factors, and inclusion of evaluation data (contamination). In this work, we propose What's In My Big Data? (WIMBD), a platform and a set of sixteen analyses that allow us to reveal and compare the contents of large text corpora. WIMBD builds on two basic capabilities -- count and search -- at scale, which allows us to analyze more than 35 terabytes on a standard compute node. We apply WIMBD to ten different corpora used to train popular language models, including C4, The Pile, and RedPajama. Our analysis uncovers several surprising and previously undocumented findings about these corpora, including the high prevalence of duplicate, synthetic, and low-quality content, personally identifiable information, toxic language, and benchmark contamination. For instance, we find that about 50% of the documents in RedPajama and LAION-2B-en are duplicates. In addition, several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE. We open-source WIMBD's code and artifacts to provide a standard set of evaluations for new text-based corpora and to encourage more analyses and transparency around them: github.com/allenai/wimbd.
PDF111December 15, 2024