CLIMB: 言語モデル事前学習のためのクラスタリングベースの反復的データ混合ブートストラップCLIMB: CLustering-based Iterative Data Mixture Bootstrapping for
Language Model Pre-training
事前学習用データセットは通常、ウェブコンテンツから収集され、固有のドメイン分割を欠いています。例えば、Common Crawlのような広く使用されているデータセットには明示的なドメインラベルが含まれておらず、The Pileのようなラベル付きデータセットを手作業でキュレーションするのは労力を要します。その結果、事前学習のパフォーマンスに大きな利益をもたらすにもかかわらず、最適な事前学習データの混合を見つけることは依然として難しい問題です。これらの課題に対処するため、我々はCLustering-based Iterative Data Mixture Bootstrapping (CLIMB)を提案します。これは、事前学習設定においてデータの混合を発見し、評価し、洗練する自動化されたフレームワークです。具体的には、CLIMBは大規模データセットを意味空間に埋め込み、クラスタリングし、その後、より小さなプロキシモデルと予測器を使用して最適な混合を反復的に探索します。この混合で4000億トークンを継続的に学習させた場合、我々の10億パラメータモデルは最先端のLlama-3.2-1Bを2.0%上回ります。さらに、特定のドメイン(例:社会科学)に対して最適化を行うことで、ランダムサンプリングよりも5%の改善が得られることを観察しました。最後に、研究のためのプレイグラウンドとして20のクラスターを持つ1.2兆トークンのフィルタリングされたコーパスであるClimbLabと、等しいトークン予算の下で優れたパフォーマンスを発揮する効率的な事前学習用に設計されたコンパクトながら強力な4000億トークンのデータセットであるClimbMixを紹介します。最終的なデータ混合を分析し、最適なデータ混合の特性を明らかにします。我々のデータは以下で利用可能です:https://research.nvidia.com/labs/lpr/climb/