Die FineWeb-Datensätze: Das Filtern des Webs für die feinste Textdaten auf Skalenebene
The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale
June 25, 2024
Autoren: Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf
cs.AI
Zusammenfassung
Die Leistung eines großen Sprachmodells (LLM) hängt stark von der Qualität und Größe seines Vortrainingsdatensatzes ab. Allerdings sind die Vortrainingsdatensätze für modernste offene LLMs wie Llama 3 und Mixtral nicht öffentlich verfügbar, und es ist sehr wenig darüber bekannt, wie sie erstellt wurden. In dieser Arbeit stellen wir FineWeb vor, einen 15-Billionen-Token-Datensatz, der aus 96 Common Crawl-Snapshots abgeleitet wurde und bessere Leistungen erzielt als andere offene Vortrainingsdatensätze. Um das Verständnis dafür zu fördern, wie hochwertige Vortrainingsdatensätze am besten kuratiert werden können, dokumentieren wir sorgfältig alle Designentscheidungen, die bei FineWeb getroffen wurden, einschließlich eingehender Untersuchungen von Deduplizierungs- und Filterstrategien. Darüber hinaus stellen wir FineWeb-Edu vor, eine 1,3-Billionen-Token-Sammlung von Bildungstexten, die aus FineWeb gefiltert wurden. LLMs, die auf FineWeb-Edu vortrainiert wurden, zeigen dramatisch bessere Leistungen bei wissens- und logikintensiven Benchmarks wie MMLU und ARC. Zusammen mit unseren Datensätzen veröffentlichen wir öffentlich unseren Datenaufbereitungs-Code und alle während unserer Ablationsexperimente trainierten Modelle.
English
The performance of a large language model (LLM) depends heavily on the
quality and size of its pretraining dataset. However, the pretraining datasets
for state-of-the-art open LLMs like Llama 3 and Mixtral are not publicly
available and very little is known about how they were created. In this work,
we introduce FineWeb, a 15-trillion token dataset derived from 96 Common Crawl
snapshots that produces better-performing LLMs than other open pretraining
datasets. To advance the understanding of how best to curate high-quality
pretraining datasets, we carefully document and ablate all of the design
choices used in FineWeb, including in-depth investigations of deduplication and
filtering strategies. In addition, we introduce FineWeb-Edu, a 1.3-trillion
token collection of educational text filtered from FineWeb. LLMs pretrained on
FineWeb-Edu exhibit dramatically better performance on knowledge- and
reasoning-intensive benchmarks like MMLU and ARC. Along with our datasets, we
publicly release our data curation codebase and all of the models trained
during our ablation experiments.Summary
AI-Generated Summary