ChatPaper.aiChatPaper

Wat Zit Er in Mijn Big Data?

What's In My Big Data?

October 31, 2023
Auteurs: Yanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge
cs.AI

Samenvatting

Grote tekstcorpora vormen de ruggengraat van taalmodelen. Echter, ons begrip van de inhoud van deze corpora is beperkt, inclusief algemene statistieken, kwaliteit, sociale factoren en de opname van evaluatiedata (contaminatie). In dit werk stellen we What's In My Big Data? (WIMBD) voor, een platform en een set van zestien analyses waarmee we de inhoud van grote tekstcorpora kunnen onthullen en vergelijken. WIMBD bouwt voort op twee basiscapaciteiten — tellen en zoeken — op grote schaal, wat ons in staat stelt om meer dan 35 terabyte te analyseren op een standaard rekenknooppunt. We passen WIMBD toe op tien verschillende corpora die worden gebruikt om populaire taalmodelen te trainen, waaronder C4, The Pile en RedPajama. Onze analyse onthult verschillende verrassende en voorheen niet gedocumenteerde bevindingen over deze corpora, waaronder de hoge prevalentie van dubbele, synthetische en kwalitatief slechte inhoud, persoonlijk identificeerbare informatie, giftige taal en benchmarkcontaminatie. Zo ontdekken we dat ongeveer 50% van de documenten in RedPajama en LAION-2B-en duplicaten zijn. Daarnaast zijn verschillende datasets die worden gebruikt voor het benchmarken van modellen die op dergelijke corpora zijn getraind, gecontamineerd ten opzichte van belangrijke benchmarks, waaronder de Winograd Schema Challenge en delen van GLUE en SuperGLUE. We maken de code en artefacten van WIMBD open source om een standaardset van evaluaties te bieden voor nieuwe tekstgebaseerde corpora en om meer analyses en transparantie rondom deze corpora aan te moedigen: github.com/allenai/wimbd.
English
Large text corpora are the backbone of language models. However, we have a limited understanding of the content of these corpora, including general statistics, quality, social factors, and inclusion of evaluation data (contamination). In this work, we propose What's In My Big Data? (WIMBD), a platform and a set of sixteen analyses that allow us to reveal and compare the contents of large text corpora. WIMBD builds on two basic capabilities -- count and search -- at scale, which allows us to analyze more than 35 terabytes on a standard compute node. We apply WIMBD to ten different corpora used to train popular language models, including C4, The Pile, and RedPajama. Our analysis uncovers several surprising and previously undocumented findings about these corpora, including the high prevalence of duplicate, synthetic, and low-quality content, personally identifiable information, toxic language, and benchmark contamination. For instance, we find that about 50% of the documents in RedPajama and LAION-2B-en are duplicates. In addition, several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE. We open-source WIMBD's code and artifacts to provide a standard set of evaluations for new text-based corpora and to encourage more analyses and transparency around them: github.com/allenai/wimbd.
PDF111February 7, 2026