Что содержится в моих больших данных?
What's In My Big Data?
October 31, 2023
Авторы: Yanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge
cs.AI
Аннотация
Крупные текстовые корпуса являются основой языковых моделей. Однако наше понимание содержания этих корпусов, включая общую статистику, качество, социальные аспекты и наличие данных для оценки (загрязнение), остается ограниченным. В данной работе мы представляем платформу What's In My Big Data? (WIMBD) и набор из шестнадцати анализов, которые позволяют раскрывать и сравнивать содержимое крупных текстовых корпусов. WIMBD основывается на двух базовых возможностях — подсчете и поиске — в масштабе, что позволяет анализировать более 35 терабайт данных на стандартном вычислительном узле. Мы применяем WIMBD к десяти различным корпусам, используемым для обучения популярных языковых моделей, включая C4, The Pile и RedPajama. Наш анализ выявляет несколько удивительных и ранее не документированных фактов об этих корпусах, включая высокую распространенность дубликатов, синтетического и низкокачественного контента, личной идентифицируемой информации, токсичного языка и загрязнения тестовых данных. Например, мы обнаруживаем, что около 50% документов в RedPajama и LAION-2B-en являются дубликатами. Кроме того, несколько наборов данных, используемых для тестирования моделей, обученных на таких корпусах, загрязнены в отношении важных тестов, включая Winograd Schema Challenge и части GLUE и SuperGLUE. Мы открываем исходный код и артефакты WIMBD, чтобы предоставить стандартный набор оценок для новых текстовых корпусов и стимулировать больше анализов и прозрачности вокруг них: github.com/allenai/wimbd.
English
Large text corpora are the backbone of language models. However, we have a
limited understanding of the content of these corpora, including general
statistics, quality, social factors, and inclusion of evaluation data
(contamination). In this work, we propose What's In My Big Data? (WIMBD), a
platform and a set of sixteen analyses that allow us to reveal and compare the
contents of large text corpora. WIMBD builds on two basic capabilities -- count
and search -- at scale, which allows us to analyze more than 35 terabytes on a
standard compute node. We apply WIMBD to ten different corpora used to train
popular language models, including C4, The Pile, and RedPajama. Our analysis
uncovers several surprising and previously undocumented findings about these
corpora, including the high prevalence of duplicate, synthetic, and low-quality
content, personally identifiable information, toxic language, and benchmark
contamination. For instance, we find that about 50% of the documents in
RedPajama and LAION-2B-en are duplicates. In addition, several datasets used
for benchmarking models trained on such corpora are contaminated with respect
to important benchmarks, including the Winograd Schema Challenge and parts of
GLUE and SuperGLUE. We open-source WIMBD's code and artifacts to provide a
standard set of evaluations for new text-based corpora and to encourage more
analyses and transparency around them: github.com/allenai/wimbd.