FineWeb2: Una tubería para escalarlos todos -- Adaptación del procesamiento de datos de preentrenamiento a cada idioma
FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language
June 26, 2025
Autores: Guilherme Penedo, Hynek Kydlíček, Vinko Sabolčec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf
cs.AI
Resumen
El preentrenamiento de modelos de lenguaje grandes (LLMs) de última generación requiere grandes cantidades de datos de texto limpios y diversos. Si bien el desarrollo abierto de grandes conjuntos de datos de preentrenamiento en inglés de alta calidad ha experimentado un progreso sustancial recientemente, entrenar LLMs multilingües eficientes sigue siendo un desafío, en gran parte debido a la dificultad inherente de adaptar las canalizaciones de filtrado y deduplicación a un gran número de idiomas. En este trabajo, presentamos una nueva canalización de curación de datos de preentrenamiento basada en FineWeb que puede adaptarse automáticamente para soportar cualquier idioma. Realizamos una extensa ablación de las decisiones de diseño de nuestra canalización en un conjunto de nueve idiomas diversos, guiados por un conjunto de tareas de evaluación significativas e informativas que fueron seleccionadas mediante un proceso novedoso basado en criterios medibles. En última instancia, demostramos que nuestra canalización puede utilizarse para crear corpus no ingleses que producen modelos más eficientes que los conjuntos de datos anteriores. Además, introducimos un enfoque sencillo y fundamentado para reequilibrar conjuntos de datos que considera tanto el recuento de duplicados como la calidad, proporcionando una mejora adicional en el rendimiento. Finalmente, escalamos nuestra canalización a más de 1000 idiomas utilizando casi 100 instantáneas de Common Crawl para producir FineWeb2, un nuevo conjunto de datos multilingüe de 20 terabytes (5 mil millones de documentos), que publicamos junto con nuestra canalización, código de entrenamiento y evaluación.
English
Pre-training state-of-the-art large language models (LLMs) requires vast
amounts of clean and diverse text data. While the open development of large
high-quality English pre-training datasets has seen substantial recent
progress, training performant multilingual LLMs remains a challenge, in large
part due to the inherent difficulty of tailoring filtering and deduplication
pipelines to a large number of languages. In this work, we introduce a new
pre-training dataset curation pipeline based on FineWeb that can be
automatically adapted to support any language. We extensively ablate our
pipeline design choices on a set of nine diverse languages, guided by a set of
meaningful and informative evaluation tasks that were chosen through a novel
selection process based on measurable criteria. Ultimately, we show that our
pipeline can be used to create non-English corpora that produce more performant
models than prior datasets. We additionally introduce a straightforward and
principled approach to rebalance datasets that takes into consideration both
duplication count and quality, providing an additional performance uplift.
Finally, we scale our pipeline to over 1000 languages using almost 100 Common
Crawl snapshots to produce FineWeb2, a new 20 terabyte (5 billion document)
multilingual dataset which we release along with our pipeline, training, and
evaluation codebases.