ChatPaper.aiChatPaper

FineWeb2:すべての言語に対応するための単一パイプライン ― 事前学習データ処理の適応

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

June 26, 2025
著者: Guilherme Penedo, Hynek Kydlíček, Vinko Sabolčec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf
cs.AI

要旨

最先端の大規模言語モデル(LLM)の事前学習には、膨大な量のクリーンで多様なテキストデータが必要です。大規模で高品質な英語の事前学習データセットのオープンな開発は近年大幅に進展していますが、高性能な多言語LLMの学習は依然として課題であり、その主な理由は、多数の言語にフィルタリングと重複排除のパイプラインを適応させることの本質的な難しさにあります。本研究では、FineWebに基づく新しい事前学習データセットのキュレーションパイプラインを導入し、あらゆる言語を自動的にサポートできるようにしました。私たちは、9つの多様な言語セットに対してパイプライン設計の選択肢を詳細に検証し、測定可能な基準に基づいた新しい選択プロセスを通じて選ばれた意味のある情報豊富な評価タスクに導かれました。最終的に、このパイプラインを使用して、従来のデータセットよりも高性能なモデルを生成する非英語コーパスを作成できることを示しました。さらに、重複カウントと品質の両方を考慮した、データセットのリバランスを行うためのシンプルで原則に基づいたアプローチを導入し、追加の性能向上を提供します。最後に、100近いCommon Crawlスナップショットを使用して、1000以上の言語にわたるパイプラインをスケールアップし、20テラバイト(50億ドキュメント)の新しい多言語データセットであるFineWeb2を生成しました。これに加えて、パイプライン、学習、および評価のコードベースも公開します。
English
Pre-training state-of-the-art large language models (LLMs) requires vast amounts of clean and diverse text data. While the open development of large high-quality English pre-training datasets has seen substantial recent progress, training performant multilingual LLMs remains a challenge, in large part due to the inherent difficulty of tailoring filtering and deduplication pipelines to a large number of languages. In this work, we introduce a new pre-training dataset curation pipeline based on FineWeb that can be automatically adapted to support any language. We extensively ablate our pipeline design choices on a set of nine diverse languages, guided by a set of meaningful and informative evaluation tasks that were chosen through a novel selection process based on measurable criteria. Ultimately, we show that our pipeline can be used to create non-English corpora that produce more performant models than prior datasets. We additionally introduce a straightforward and principled approach to rebalance datasets that takes into consideration both duplication count and quality, providing an additional performance uplift. Finally, we scale our pipeline to over 1000 languages using almost 100 Common Crawl snapshots to produce FineWeb2, a new 20 terabyte (5 billion document) multilingual dataset which we release along with our pipeline, training, and evaluation codebases.
PDF251June 27, 2025