ChatPaper.aiChatPaper

FineWeb2 : Un pipeline unique pour tous les adapter -- Adaptation du traitement des données de pré-entraînement à chaque langue

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

June 26, 2025
Auteurs: Guilherme Penedo, Hynek Kydlíček, Vinko Sabolčec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf
cs.AI

Résumé

Le pré-entraînement des modèles de langage de pointe (LLMs) nécessite des quantités massives de données textuelles propres et diversifiées. Alors que le développement ouvert de grands ensembles de données de pré-entraînement de haute qualité en anglais a connu des progrès substantiels récemment, l'entraînement de LLMs multilingues performants reste un défi, en grande partie en raison de la difficulté inhérente à adapter les pipelines de filtrage et de déduplication à un grand nombre de langues. Dans ce travail, nous introduisons un nouveau pipeline de curation de données de pré-entraînement basé sur FineWeb, qui peut être automatiquement adapté pour supporter n'importe quelle langue. Nous effectuons une ablation extensive des choix de conception de notre pipeline sur un ensemble de neuf langues diverses, guidés par un ensemble de tâches d'évaluation significatives et informatives choisies à travers un processus de sélection novateur basé sur des critères mesurables. En fin de compte, nous montrons que notre pipeline peut être utilisé pour créer des corpus non-anglophones qui produisent des modèles plus performants que les ensembles de données précédents. Nous introduisons également une approche simple et rigoureuse pour rééquilibrer les ensembles de données en tenant compte à la fois du nombre de duplications et de la qualité, offrant ainsi une amélioration supplémentaire des performances. Enfin, nous mettons à l'échelle notre pipeline pour plus de 1000 langues en utilisant près de 100 instantanés de Common Crawl pour produire FineWeb2, un nouvel ensemble de données multilingue de 20 téraoctets (5 milliards de documents) que nous publions, ainsi que notre pipeline, notre code d'entraînement et d'évaluation.
English
Pre-training state-of-the-art large language models (LLMs) requires vast amounts of clean and diverse text data. While the open development of large high-quality English pre-training datasets has seen substantial recent progress, training performant multilingual LLMs remains a challenge, in large part due to the inherent difficulty of tailoring filtering and deduplication pipelines to a large number of languages. In this work, we introduce a new pre-training dataset curation pipeline based on FineWeb that can be automatically adapted to support any language. We extensively ablate our pipeline design choices on a set of nine diverse languages, guided by a set of meaningful and informative evaluation tasks that were chosen through a novel selection process based on measurable criteria. Ultimately, we show that our pipeline can be used to create non-English corpora that produce more performant models than prior datasets. We additionally introduce a straightforward and principled approach to rebalance datasets that takes into consideration both duplication count and quality, providing an additional performance uplift. Finally, we scale our pipeline to over 1000 languages using almost 100 Common Crawl snapshots to produce FineWeb2, a new 20 terabyte (5 billion document) multilingual dataset which we release along with our pipeline, training, and evaluation codebases.
PDF251June 27, 2025