O Que Há No Meu Big Data?
What's In My Big Data?
October 31, 2023
Autores: Yanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge
cs.AI
Resumo
Grandes corpora de texto são a espinha dorsal dos modelos de linguagem. No entanto, temos um entendimento limitado do conteúdo desses corpora, incluindo estatísticas gerais, qualidade, fatores sociais e a inclusão de dados de avaliação (contaminação). Neste trabalho, propomos o What's In My Big Data? (WIMBD), uma plataforma e um conjunto de dezesseis análises que nos permitem revelar e comparar o conteúdo de grandes corpora de texto. O WIMBD se baseia em duas capacidades básicas — contagem e busca — em escala, o que nos permite analisar mais de 35 terabytes em um nó de computação padrão. Aplicamos o WIMBD a dez diferentes corpora usados para treinar modelos de linguagem populares, incluindo C4, The Pile e RedPajama. Nossa análise revela várias descobertas surpreendentes e anteriormente não documentadas sobre esses corpora, incluindo a alta prevalência de conteúdo duplicado, sintético e de baixa qualidade, informações pessoalmente identificáveis, linguagem tóxica e contaminação de benchmarks. Por exemplo, descobrimos que cerca de 50% dos documentos no RedPajama e LAION-2B-en são duplicados. Além disso, vários conjuntos de dados usados para avaliar modelos treinados nesses corpora estão contaminados em relação a benchmarks importantes, incluindo o Winograd Schema Challenge e partes do GLUE e SuperGLUE. Disponibilizamos o código e os artefatos do WIMBD como código aberto para fornecer um conjunto padrão de avaliações para novos corpora baseados em texto e incentivar mais análises e transparência em torno deles: github.com/allenai/wimbd.
English
Large text corpora are the backbone of language models. However, we have a
limited understanding of the content of these corpora, including general
statistics, quality, social factors, and inclusion of evaluation data
(contamination). In this work, we propose What's In My Big Data? (WIMBD), a
platform and a set of sixteen analyses that allow us to reveal and compare the
contents of large text corpora. WIMBD builds on two basic capabilities -- count
and search -- at scale, which allows us to analyze more than 35 terabytes on a
standard compute node. We apply WIMBD to ten different corpora used to train
popular language models, including C4, The Pile, and RedPajama. Our analysis
uncovers several surprising and previously undocumented findings about these
corpora, including the high prevalence of duplicate, synthetic, and low-quality
content, personally identifiable information, toxic language, and benchmark
contamination. For instance, we find that about 50% of the documents in
RedPajama and LAION-2B-en are duplicates. In addition, several datasets used
for benchmarking models trained on such corpora are contaminated with respect
to important benchmarks, including the Winograd Schema Challenge and parts of
GLUE and SuperGLUE. We open-source WIMBD's code and artifacts to provide a
standard set of evaluations for new text-based corpora and to encourage more
analyses and transparency around them: github.com/allenai/wimbd.