FineWeb2: Eine Pipeline für alle – Anpassung der Verarbeitung von Vortrainingsdaten für jede Sprache
FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language
June 26, 2025
Autoren: Guilherme Penedo, Hynek Kydlíček, Vinko Sabolčec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf
cs.AI
Zusammenfassung
Das Pre-Training von modernen großen Sprachmodellen (LLMs) erfordert enorme Mengen an sauberen und vielfältigen Textdaten. Während die offene Entwicklung großer, hochwertiger englischer Pre-Training-Datensätze in letzter Zeit erhebliche Fortschritte gemacht hat, bleibt das Training leistungsfähiger mehrsprachiger LLMs eine Herausforderung, nicht zuletzt aufgrund der inhärenten Schwierigkeit, Filterungs- und Deduplizierungspipelines an eine große Anzahl von Sprachen anzupassen. In dieser Arbeit stellen wir eine neue Pipeline zur Erstellung von Pre-Training-Datensätzen vor, die auf FineWeb basiert und automatisch an jede Sprache angepasst werden kann. Wir untersuchen ausführlich die Designentscheidungen unserer Pipeline anhand eines Satzes von neun verschiedenen Sprachen, geleitet durch eine Reihe aussagekräftiger und informativer Evaluierungsaufgaben, die durch einen neuartigen Auswahlprozess basierend auf messbaren Kriterien ausgewählt wurden. Letztendlich zeigen wir, dass unsere Pipeline verwendet werden kann, um nicht-englische Korpora zu erstellen, die leistungsfähigere Modelle hervorbringen als bisherige Datensätze. Zusätzlich führen wir einen einfachen und prinzipiellen Ansatz zur Neugewichtung von Datensätzen ein, der sowohl die Anzahl der Duplikate als auch die Qualität berücksichtigt und somit eine zusätzliche Leistungssteigerung bietet. Schließlich skalieren wir unsere Pipeline auf über 1000 Sprachen unter Verwendung von fast 100 Common-Crawl-Snapshots, um FineWeb2 zu erstellen, einen neuen 20 Terabyte (5 Milliarden Dokumente) umfassenden mehrsprachigen Datensatz, den wir zusammen mit unserer Pipeline, unseren Trainings- und Evaluierungscodebasen veröffentlichen.
English
Pre-training state-of-the-art large language models (LLMs) requires vast
amounts of clean and diverse text data. While the open development of large
high-quality English pre-training datasets has seen substantial recent
progress, training performant multilingual LLMs remains a challenge, in large
part due to the inherent difficulty of tailoring filtering and deduplication
pipelines to a large number of languages. In this work, we introduce a new
pre-training dataset curation pipeline based on FineWeb that can be
automatically adapted to support any language. We extensively ablate our
pipeline design choices on a set of nine diverse languages, guided by a set of
meaningful and informative evaluation tasks that were chosen through a novel
selection process based on measurable criteria. Ultimately, we show that our
pipeline can be used to create non-English corpora that produce more performant
models than prior datasets. We additionally introduce a straightforward and
principled approach to rebalance datasets that takes into consideration both
duplication count and quality, providing an additional performance uplift.
Finally, we scale our pipeline to over 1000 languages using almost 100 Common
Crawl snapshots to produce FineWeb2, a new 20 terabyte (5 billion document)
multilingual dataset which we release along with our pipeline, training, and
evaluation codebases.