ChatPaper.aiChatPaper

Que contiennent mes mégadonnées ?

What's In My Big Data?

October 31, 2023
Auteurs: Yanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge
cs.AI

Résumé

Les grands corpus de texte constituent l'épine dorsale des modèles de langage. Cependant, notre compréhension du contenu de ces corpus reste limitée, notamment en ce qui concerne les statistiques générales, la qualité, les facteurs sociaux et l'inclusion de données d'évaluation (contamination). Dans ce travail, nous proposons What's In My Big Data? (WIMBD), une plateforme et un ensemble de seize analyses qui nous permettent de révéler et de comparer le contenu des grands corpus de texte. WIMBD s'appuie sur deux capacités de base — le comptage et la recherche — à grande échelle, ce qui nous permet d'analyser plus de 35 téraoctets sur un nœud de calcul standard. Nous appliquons WIMBD à dix corpus différents utilisés pour entraîner des modèles de langage populaires, notamment C4, The Pile et RedPajama. Notre analyse révèle plusieurs découvertes surprenantes et jusqu'alors non documentées concernant ces corpus, notamment la prévalence élevée de contenu dupliqué, synthétique et de faible qualité, d'informations personnellement identifiables, de langage toxique et de contamination des benchmarks. Par exemple, nous constatons qu'environ 50 % des documents dans RedPajama et LAION-2B-en sont des doublons. De plus, plusieurs ensembles de données utilisés pour évaluer les modèles entraînés sur ces corpus sont contaminés par rapport à des benchmarks importants, notamment le Winograd Schema Challenge et certaines parties de GLUE et SuperGLUE. Nous mettons en open-source le code et les artefacts de WIMBD afin de fournir un ensemble standard d'évaluations pour les nouveaux corpus de texte et d'encourager davantage d'analyses et de transparence autour de ceux-ci : github.com/allenai/wimbd.
English
Large text corpora are the backbone of language models. However, we have a limited understanding of the content of these corpora, including general statistics, quality, social factors, and inclusion of evaluation data (contamination). In this work, we propose What's In My Big Data? (WIMBD), a platform and a set of sixteen analyses that allow us to reveal and compare the contents of large text corpora. WIMBD builds on two basic capabilities -- count and search -- at scale, which allows us to analyze more than 35 terabytes on a standard compute node. We apply WIMBD to ten different corpora used to train popular language models, including C4, The Pile, and RedPajama. Our analysis uncovers several surprising and previously undocumented findings about these corpora, including the high prevalence of duplicate, synthetic, and low-quality content, personally identifiable information, toxic language, and benchmark contamination. For instance, we find that about 50% of the documents in RedPajama and LAION-2B-en are duplicates. In addition, several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE. We open-source WIMBD's code and artifacts to provide a standard set of evaluations for new text-based corpora and to encourage more analyses and transparency around them: github.com/allenai/wimbd.
PDF111December 15, 2024