ChatPaper.aiChatPaper

FineWeb2: Één pijplijn om ze allemaal te schalen -- Het aanpassen van de verwerking van voorafgaande trainingsgegevens aan elke taal

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

June 26, 2025
Auteurs: Guilherme Penedo, Hynek Kydlíček, Vinko Sabolčec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf
cs.AI

Samenvatting

Het vooraf trainen van state-of-the-art grote taalmmodellen (LLM's) vereist enorme hoeveelheden schone en diverse tekstdata. Hoewel de open ontwikkeling van grote, hoogwaardige Engelse vooraf-trainingsdatasets recent aanzienlijke vooruitgang heeft geboekt, blijft het trainen van performante meertalige LLM's een uitdaging, grotendeels vanwege de inherente moeilijkheid om filter- en deduplicatiepijplijnen aan te passen aan een groot aantal talen. In dit werk introduceren we een nieuwe pijplijn voor het samenstellen van vooraf-trainingsdatasets, gebaseerd op FineWeb, die automatisch kan worden aangepast om elke taal te ondersteunen. We voeren uitgebreide ablatie-onderzoeken uit naar onze pijplijnontwerpkeuzes op een set van negen diverse talen, geleid door een reeks betekenisvolle en informatieve evaluatietaken die zijn geselecteerd via een nieuw selectieproces gebaseerd op meetbare criteria. Uiteindelijk tonen we aan dat onze pijplijn kan worden gebruikt om niet-Engelse corpora te creëren die performantere modellen opleveren dan eerdere datasets. Daarnaast introduceren we een eenvoudige en principiële benadering om datasets opnieuw in balans te brengen, waarbij zowel het aantal duplicaten als de kwaliteit in overweging worden genomen, wat een extra prestatieverbetering biedt. Tot slot schalen we onze pijplijn op naar meer dan 1000 talen met behulp van bijna 100 Common Crawl-momentopnamen om FineWeb2 te produceren, een nieuwe meertalige dataset van 20 terabyte (5 miljard documenten), die we vrijgeven samen met onze pijplijn, trainings- en evaluatiecodebases.
English
Pre-training state-of-the-art large language models (LLMs) requires vast amounts of clean and diverse text data. While the open development of large high-quality English pre-training datasets has seen substantial recent progress, training performant multilingual LLMs remains a challenge, in large part due to the inherent difficulty of tailoring filtering and deduplication pipelines to a large number of languages. In this work, we introduce a new pre-training dataset curation pipeline based on FineWeb that can be automatically adapted to support any language. We extensively ablate our pipeline design choices on a set of nine diverse languages, guided by a set of meaningful and informative evaluation tasks that were chosen through a novel selection process based on measurable criteria. Ultimately, we show that our pipeline can be used to create non-English corpora that produce more performant models than prior datasets. We additionally introduce a straightforward and principled approach to rebalance datasets that takes into consideration both duplication count and quality, providing an additional performance uplift. Finally, we scale our pipeline to over 1000 languages using almost 100 Common Crawl snapshots to produce FineWeb2, a new 20 terabyte (5 billion document) multilingual dataset which we release along with our pipeline, training, and evaluation codebases.
PDF571June 27, 2025