FineWeb2: Una Pipeline per Scalare Tutto - Adattare l'Elaborazione dei Dati di Pre-Addestramento a Ogni Lingua
FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language
June 26, 2025
Autori: Guilherme Penedo, Hynek Kydlíček, Vinko Sabolčec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf
cs.AI
Abstract
Il pre-training di modelli linguistici di grandi dimensioni (LLM) all'avanguardia richiede grandi quantità di dati testuali puliti e diversificati. Sebbene lo sviluppo aperto di ampi dataset di pre-training di alta qualità in inglese abbia registrato progressi significativi di recente, l'addestramento di LLM multilingue performanti rimane una sfida, in gran parte a causa della difficoltà intrinseca di adattare pipeline di filtraggio e deduplicazione a un ampio numero di lingue. In questo lavoro, introduciamo una nuova pipeline di creazione di dataset di pre-training basata su FineWeb che può essere adattata automaticamente per supportare qualsiasi lingua. Analizziamo approfonditamente le scelte di progettazione della nostra pipeline su un insieme di nove lingue diverse, guidati da una serie di task di valutazione significativi e informativi selezionati attraverso un nuovo processo basato su criteri misurabili. In definitiva, dimostriamo che la nostra pipeline può essere utilizzata per creare corpora non in inglese che producono modelli più performanti rispetto ai dataset precedenti. Introduciamo inoltre un approccio semplice e basato su principi per riequilibrare i dataset, tenendo conto sia del conteggio delle duplicazioni che della qualità, fornendo un ulteriore miglioramento delle prestazioni. Infine, scaliamo la nostra pipeline a oltre 1000 lingue utilizzando quasi 100 snapshot di Common Crawl per produrre FineWeb2, un nuovo dataset multilingue da 20 terabyte (5 miliardi di documenti) che rilasciamo insieme alla nostra pipeline, al codice di addestramento e di valutazione.
English
Pre-training state-of-the-art large language models (LLMs) requires vast
amounts of clean and diverse text data. While the open development of large
high-quality English pre-training datasets has seen substantial recent
progress, training performant multilingual LLMs remains a challenge, in large
part due to the inherent difficulty of tailoring filtering and deduplication
pipelines to a large number of languages. In this work, we introduce a new
pre-training dataset curation pipeline based on FineWeb that can be
automatically adapted to support any language. We extensively ablate our
pipeline design choices on a set of nine diverse languages, guided by a set of
meaningful and informative evaluation tasks that were chosen through a novel
selection process based on measurable criteria. Ultimately, we show that our
pipeline can be used to create non-English corpora that produce more performant
models than prior datasets. We additionally introduce a straightforward and
principled approach to rebalance datasets that takes into consideration both
duplication count and quality, providing an additional performance uplift.
Finally, we scale our pipeline to over 1000 languages using almost 100 Common
Crawl snapshots to produce FineWeb2, a new 20 terabyte (5 billion document)
multilingual dataset which we release along with our pipeline, training, and
evaluation codebases.