Cosa C'è Nei Miei Big Data?

Abstract

I grandi corpora testuali costituiscono la spina dorsale dei modelli linguistici. Tuttavia, abbiamo una comprensione limitata del contenuto di questi corpora, incluse statistiche generali, qualità, fattori sociali e inclusione di dati di valutazione (contaminazione). In questo lavoro, proponiamo What's In My Big Data? (WIMBD), una piattaforma e un insieme di sedici analisi che ci permettono di rivelare e confrontare i contenuti di grandi corpora testuali. WIMBD si basa su due capacità fondamentali — conteggio e ricerca — su larga scala, che ci consentono di analizzare più di 35 terabyte su un nodo di calcolo standard. Applichiamo WIMBD a dieci diversi corpora utilizzati per addestrare modelli linguistici popolari, tra cui C4, The Pile e RedPajama. La nostra analisi rivela diversi risultati sorprendenti e precedentemente non documentati su questi corpora, inclusa l'elevata prevalenza di contenuti duplicati, sintetici e di bassa qualità, informazioni personalmente identificabili, linguaggio tossico e contaminazione dei benchmark. Ad esempio, scopriamo che circa il 50% dei documenti in RedPajama e LAION-2B-en sono duplicati. Inoltre, diversi dataset utilizzati per valutare i modelli addestrati su tali corpora sono contaminati rispetto a benchmark importanti, tra cui la Winograd Schema Challenge e parti di GLUE e SuperGLUE. Rendiamo open-source il codice e gli artefatti di WIMBD per fornire un insieme standard di valutazioni per nuovi corpora testuali e per incoraggiare maggiori analisi e trasparenza intorno a essi: github.com/allenai/wimbd.

English

Large text corpora are the backbone of language models. However, we have a limited understanding of the content of these corpora, including general statistics, quality, social factors, and inclusion of evaluation data (contamination). In this work, we propose What's In My Big Data? (WIMBD), a platform and a set of sixteen analyses that allow us to reveal and compare the contents of large text corpora. WIMBD builds on two basic capabilities -- count and search -- at scale, which allows us to analyze more than 35 terabytes on a standard compute node. We apply WIMBD to ten different corpora used to train popular language models, including C4, The Pile, and RedPajama. Our analysis uncovers several surprising and previously undocumented findings about these corpora, including the high prevalence of duplicate, synthetic, and low-quality content, personally identifiable information, toxic language, and benchmark contamination. For instance, we find that about 50% of the documents in RedPajama and LAION-2B-en are duplicates. In addition, several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE. We open-source WIMBD's code and artifacts to provide a standard set of evaluations for new text-based corpora and to encourage more analyses and transparency around them: github.com/allenai/wimbd.