Was steckt in meinen Big Data?
What's In My Big Data?
October 31, 2023
Autoren: Yanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge
cs.AI
Zusammenfassung
Große Textkorpora bilden das Rückgrat von Sprachmodellen. Allerdings haben wir nur ein begrenztes Verständnis des Inhalts dieser Korpora, einschließlich allgemeiner Statistiken, Qualität, sozialer Faktoren und der Einbeziehung von Evaluierungsdaten (Kontamination). In dieser Arbeit stellen wir „What's In My Big Data?“ (WIMBD) vor, eine Plattform und eine Sammlung von sechzehn Analysen, die es uns ermöglichen, die Inhalte großer Textkorpora aufzudecken und zu vergleichen. WIMBD basiert auf zwei grundlegenden Fähigkeiten – Zählen und Suchen – in großem Maßstab, was die Analyse von mehr als 35 Terabyte auf einem Standard-Computeknoten ermöglicht. Wir wenden WIMBD auf zehn verschiedene Korpora an, die zur Schulung populärer Sprachmodelle verwendet werden, darunter C4, The Pile und RedPajama. Unsere Analyse deckt mehrere überraschende und bisher nicht dokumentierte Erkenntnisse über diese Korpora auf, darunter die hohe Prävalenz von duplizierten, synthetischen und qualitativ minderwertigen Inhalten, personenbezogenen Informationen, toxischer Sprache und Benchmark-Kontamination. Beispielsweise stellen wir fest, dass etwa 50 % der Dokumente in RedPajama und LAION-2B-en Duplikate sind. Darüber hinaus sind mehrere Datensätze, die zur Bewertung von Modellen verwendet werden, die auf solchen Korpora trainiert wurden, in Bezug auf wichtige Benchmarks kontaminiert, darunter die Winograd Schema Challenge sowie Teile von GLUE und SuperGLUE. Wir veröffentlichen den Code und die Artefakte von WIMBD als Open Source, um einen Standard für die Bewertung neuer textbasierter Korpora bereitzustellen und mehr Analysen und Transparenz in diesem Bereich zu fördern: github.com/allenai/wimbd.
English
Large text corpora are the backbone of language models. However, we have a
limited understanding of the content of these corpora, including general
statistics, quality, social factors, and inclusion of evaluation data
(contamination). In this work, we propose What's In My Big Data? (WIMBD), a
platform and a set of sixteen analyses that allow us to reveal and compare the
contents of large text corpora. WIMBD builds on two basic capabilities -- count
and search -- at scale, which allows us to analyze more than 35 terabytes on a
standard compute node. We apply WIMBD to ten different corpora used to train
popular language models, including C4, The Pile, and RedPajama. Our analysis
uncovers several surprising and previously undocumented findings about these
corpora, including the high prevalence of duplicate, synthetic, and low-quality
content, personally identifiable information, toxic language, and benchmark
contamination. For instance, we find that about 50% of the documents in
RedPajama and LAION-2B-en are duplicates. In addition, several datasets used
for benchmarking models trained on such corpora are contaminated with respect
to important benchmarks, including the Winograd Schema Challenge and parts of
GLUE and SuperGLUE. We open-source WIMBD's code and artifacts to provide a
standard set of evaluations for new text-based corpora and to encourage more
analyses and transparency around them: github.com/allenai/wimbd.