Cosa C'è Nei Miei Big Data?
What's In My Big Data?
October 31, 2023
Autori: Yanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge
cs.AI
Abstract
I grandi corpora testuali costituiscono la spina dorsale dei modelli linguistici. Tuttavia, abbiamo una comprensione limitata del contenuto di questi corpora, incluse statistiche generali, qualità, fattori sociali e inclusione di dati di valutazione (contaminazione). In questo lavoro, proponiamo What's In My Big Data? (WIMBD), una piattaforma e un insieme di sedici analisi che ci permettono di rivelare e confrontare i contenuti di grandi corpora testuali. WIMBD si basa su due capacità fondamentali — conteggio e ricerca — su larga scala, che ci consentono di analizzare più di 35 terabyte su un nodo di calcolo standard. Applichiamo WIMBD a dieci diversi corpora utilizzati per addestrare modelli linguistici popolari, tra cui C4, The Pile e RedPajama. La nostra analisi rivela diversi risultati sorprendenti e precedentemente non documentati su questi corpora, inclusa l'elevata prevalenza di contenuti duplicati, sintetici e di bassa qualità, informazioni personalmente identificabili, linguaggio tossico e contaminazione dei benchmark. Ad esempio, scopriamo che circa il 50% dei documenti in RedPajama e LAION-2B-en sono duplicati. Inoltre, diversi dataset utilizzati per valutare i modelli addestrati su tali corpora sono contaminati rispetto a benchmark importanti, tra cui la Winograd Schema Challenge e parti di GLUE e SuperGLUE. Rendiamo open-source il codice e gli artefatti di WIMBD per fornire un insieme standard di valutazioni per nuovi corpora testuali e per incoraggiare maggiori analisi e trasparenza intorno a essi: github.com/allenai/wimbd.
English
Large text corpora are the backbone of language models. However, we have a
limited understanding of the content of these corpora, including general
statistics, quality, social factors, and inclusion of evaluation data
(contamination). In this work, we propose What's In My Big Data? (WIMBD), a
platform and a set of sixteen analyses that allow us to reveal and compare the
contents of large text corpora. WIMBD builds on two basic capabilities -- count
and search -- at scale, which allows us to analyze more than 35 terabytes on a
standard compute node. We apply WIMBD to ten different corpora used to train
popular language models, including C4, The Pile, and RedPajama. Our analysis
uncovers several surprising and previously undocumented findings about these
corpora, including the high prevalence of duplicate, synthetic, and low-quality
content, personally identifiable information, toxic language, and benchmark
contamination. For instance, we find that about 50% of the documents in
RedPajama and LAION-2B-en are duplicates. In addition, several datasets used
for benchmarking models trained on such corpora are contaminated with respect
to important benchmarks, including the Winograd Schema Challenge and parts of
GLUE and SuperGLUE. We open-source WIMBD's code and artifacts to provide a
standard set of evaluations for new text-based corpora and to encourage more
analyses and transparency around them: github.com/allenai/wimbd.