FineWeb2: Единый конвейер для масштабирования — адаптация обработки данных предварительного обучения для всех языков
FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language
June 26, 2025
Авторы: Guilherme Penedo, Hynek Kydlíček, Vinko Sabolčec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf
cs.AI
Аннотация
Предварительное обучение современных крупных языковых моделей (LLM) требует огромных объемов чистых и разнообразных текстовых данных. Хотя открытая разработка крупных высококачественных наборов данных для предварительного обучения на английском языке в последнее время достигла значительного прогресса, обучение эффективных многоязычных LLM остается сложной задачей, во многом из-за присущих трудностей адаптации конвейеров фильтрации и дедупликации для большого количества языков. В данной работе мы представляем новый конвейер подготовки наборов данных для предварительного обучения, основанный на FineWeb, который может быть автоматически адаптирован для поддержки любого языка. Мы тщательно анализируем наши решения по проектированию конвейера на наборе из девяти разнообразных языков, руководствуясь набором значимых и информативных оценочных задач, которые были выбраны с использованием нового процесса отбора, основанного на измеримых критериях. В конечном итоге мы показываем, что наш конвейер может быть использован для создания неанглоязычных корпусов, которые позволяют обучать более эффективные модели по сравнению с предыдущими наборами данных. Мы также представляем простой и принципиальный подход к перебалансировке наборов данных, учитывающий как количество дубликатов, так и качество, что обеспечивает дополнительное повышение производительности. Наконец, мы масштабируем наш конвейер на более чем 1000 языков, используя почти 100 снимков Common Crawl, чтобы создать FineWeb2 — новый 20-терабайтный (5 миллиардов документов) многоязычный набор данных, который мы публикуем вместе с нашим конвейером, кодом для обучения и оценки.
English
Pre-training state-of-the-art large language models (LLMs) requires vast
amounts of clean and diverse text data. While the open development of large
high-quality English pre-training datasets has seen substantial recent
progress, training performant multilingual LLMs remains a challenge, in large
part due to the inherent difficulty of tailoring filtering and deduplication
pipelines to a large number of languages. In this work, we introduce a new
pre-training dataset curation pipeline based on FineWeb that can be
automatically adapted to support any language. We extensively ablate our
pipeline design choices on a set of nine diverse languages, guided by a set of
meaningful and informative evaluation tasks that were chosen through a novel
selection process based on measurable criteria. Ultimately, we show that our
pipeline can be used to create non-English corpora that produce more performant
models than prior datasets. We additionally introduce a straightforward and
principled approach to rebalance datasets that takes into consideration both
duplication count and quality, providing an additional performance uplift.
Finally, we scale our pipeline to over 1000 languages using almost 100 Common
Crawl snapshots to produce FineWeb2, a new 20 terabyte (5 billion document)
multilingual dataset which we release along with our pipeline, training, and
evaluation codebases.