FineWeb2: Um Pipeline para Escalonar Todos - Adaptando o Processamento de Dados de Pré-Treinamento para Cada Idioma
FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language
June 26, 2025
Autores: Guilherme Penedo, Hynek Kydlíček, Vinko Sabolčec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf
cs.AI
Resumo
O pré-treinamento de modelos de linguagem de última geração (LLMs) requer grandes quantidades de dados textuais limpos e diversificados. Embora o desenvolvimento aberto de grandes conjuntos de dados de pré-treinamento em inglês de alta qualidade tenha registrado progressos substanciais recentemente, o treinamento de LLMs multilíngues eficientes continua sendo um desafio, em grande parte devido à dificuldade inerente de adaptar pipelines de filtragem e deduplicação para um grande número de idiomas. Neste trabalho, introduzimos um novo pipeline de curadoria de dados de pré-treinamento baseado no FineWeb que pode ser automaticamente adaptado para suportar qualquer idioma. Realizamos extensas análises de nossas escolhas de design do pipeline em um conjunto de nove idiomas diversos, guiados por um conjunto de tarefas de avaliação significativas e informativas que foram selecionadas por meio de um processo de seleção inovador baseado em critérios mensuráveis. Por fim, demonstramos que nosso pipeline pode ser usado para criar corpora em idiomas não ingleses que produzem modelos mais eficientes do que conjuntos de dados anteriores. Além disso, introduzimos uma abordagem direta e fundamentada para reequilibrar conjuntos de dados que leva em consideração tanto a contagem de duplicação quanto a qualidade, proporcionando um aumento adicional de desempenho. Por fim, escalamos nosso pipeline para mais de 1000 idiomas usando quase 100 snapshots do Common Crawl para produzir o FineWeb2, um novo conjunto de dados multilíngue de 20 terabytes (5 bilhões de documentos), que disponibilizamos juntamente com nosso pipeline, código de treinamento e avaliação.
English
Pre-training state-of-the-art large language models (LLMs) requires vast
amounts of clean and diverse text data. While the open development of large
high-quality English pre-training datasets has seen substantial recent
progress, training performant multilingual LLMs remains a challenge, in large
part due to the inherent difficulty of tailoring filtering and deduplication
pipelines to a large number of languages. In this work, we introduce a new
pre-training dataset curation pipeline based on FineWeb that can be
automatically adapted to support any language. We extensively ablate our
pipeline design choices on a set of nine diverse languages, guided by a set of
meaningful and informative evaluation tasks that were chosen through a novel
selection process based on measurable criteria. Ultimately, we show that our
pipeline can be used to create non-English corpora that produce more performant
models than prior datasets. We additionally introduce a straightforward and
principled approach to rebalance datasets that takes into consideration both
duplication count and quality, providing an additional performance uplift.
Finally, we scale our pipeline to over 1000 languages using almost 100 Common
Crawl snapshots to produce FineWeb2, a new 20 terabyte (5 billion document)
multilingual dataset which we release along with our pipeline, training, and
evaluation codebases.