De FineWeb-datasets: Het filteren van het web voor de fijnste tekstgegevens op grote schaal
The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale
June 25, 2024
Auteurs: Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf
cs.AI
Samenvatting
De prestaties van een groot taalmodel (LLM) zijn sterk afhankelijk van de kwaliteit en omvang van zijn vooraf getrainde dataset. Echter, de vooraf getrainde datasets voor state-of-the-art open LLM's zoals Llama 3 en Mixtral zijn niet publiekelijk beschikbaar en er is zeer weinig bekend over hoe ze zijn samengesteld. In dit werk introduceren we FineWeb, een dataset van 15 biljoen tokens, afgeleid van 96 Common Crawl-momentopnames, die beter presterende LLM's oplevert dan andere open vooraf getrainde datasets. Om het begrip te vergroten van hoe het beste hoogwaardige vooraf getrainde datasets kunnen worden samengesteld, documenteren en analyseren we zorgvuldig alle ontwerpkeuzes die in FineWeb zijn gebruikt, waaronder diepgaande onderzoeken naar deduplicatie- en filterstrategieën. Daarnaast introduceren we FineWeb-Edu, een collectie van 1,3 biljoen tokens aan educatieve teksten die uit FineWeb zijn gefilterd. LLM's die vooraf zijn getraind op FineWeb-Edu vertonen aanzienlijk betere prestaties op kennis- en redeneerintensieve benchmarks zoals MMLU en ARC. Naast onze datasets maken we onze codebase voor datacuratie en alle modellen die tijdens onze analyse-experimenten zijn getraind, publiekelijk beschikbaar.
English
The performance of a large language model (LLM) depends heavily on the
quality and size of its pretraining dataset. However, the pretraining datasets
for state-of-the-art open LLMs like Llama 3 and Mixtral are not publicly
available and very little is known about how they were created. In this work,
we introduce FineWeb, a 15-trillion token dataset derived from 96 Common Crawl
snapshots that produces better-performing LLMs than other open pretraining
datasets. To advance the understanding of how best to curate high-quality
pretraining datasets, we carefully document and ablate all of the design
choices used in FineWeb, including in-depth investigations of deduplication and
filtering strategies. In addition, we introduce FineWeb-Edu, a 1.3-trillion
token collection of educational text filtered from FineWeb. LLMs pretrained on
FineWeb-Edu exhibit dramatically better performance on knowledge- and
reasoning-intensive benchmarks like MMLU and ARC. Along with our datasets, we
publicly release our data curation codebase and all of the models trained
during our ablation experiments.