Наборы данных FineWeb: Процесс извлечения лучших текстовых данных из сети в масштабе
The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale
June 25, 2024
Авторы: Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf
cs.AI
Аннотация
Производительность большой языковой модели (LLM) в значительной степени зависит от качества и размера набора данных для предварительного обучения. Однако наборы данных для предварительного обучения для передовых открытых LLM, таких как Llama 3 и Mixtral, не являются общедоступными, и очень мало известно о том, как они были созданы. В данной работе мы представляем FineWeb, набор данных объемом 15 триллионов токенов, полученный из 96 снимков Common Crawl, который обеспечивает более высокую производительность LLM по сравнению с другими открытыми наборами данных для предварительного обучения. Для продвижения понимания того, как лучше составлять высококачественные наборы данных для предварительного обучения, мы тщательно документируем и анализируем все используемые в FineWeb варианты проектирования, включая глубокие исследования стратегий дедупликации и фильтрации. Кроме того, мы представляем FineWeb-Edu, коллекцию текстов объемом 1,3 триллиона токенов, отобранных из FineWeb. LLM, предварительно обученные на FineWeb-Edu, проявляют значительно лучшую производительность на знаниевых и задачах, требующих рассуждений, таких как MMLU и ARC. Вместе с нашими наборами данных мы публично выпускаем нашу кодовую базу для курирования данных и все модели, обученные в ходе наших экспериментов по абляции.
English
The performance of a large language model (LLM) depends heavily on the
quality and size of its pretraining dataset. However, the pretraining datasets
for state-of-the-art open LLMs like Llama 3 and Mixtral are not publicly
available and very little is known about how they were created. In this work,
we introduce FineWeb, a 15-trillion token dataset derived from 96 Common Crawl
snapshots that produces better-performing LLMs than other open pretraining
datasets. To advance the understanding of how best to curate high-quality
pretraining datasets, we carefully document and ablate all of the design
choices used in FineWeb, including in-depth investigations of deduplication and
filtering strategies. In addition, we introduce FineWeb-Edu, a 1.3-trillion
token collection of educational text filtered from FineWeb. LLMs pretrained on
FineWeb-Edu exhibit dramatically better performance on knowledge- and
reasoning-intensive benchmarks like MMLU and ARC. Along with our datasets, we
publicly release our data curation codebase and all of the models trained
during our ablation experiments.Summary
AI-Generated Summary