予測的データ選択:予測するデータが教えるデータであるPredictive Data Selection: The Data That Predicts Is the Data That
Teaches
言語モデルの事前学習は、大規模なコーパスを用いて行われ、データの品質が重要な役割を果たします。本研究では、事前学習中のデータの貢献度を直接推定し、効率的な方法で事前学習データを選択することを目指します。具体的には、最近の研究結果から着想を得て、特定のテキストに対する多様なモデルの圧縮効率(すなわち正規化された損失)が、テキストのドメインが下流のベンチマークと一致する場合、その下流の性能と強く相関することを示しています(Huang et al., 2024)。この観察に基づいて、モデルの損失が下流の能力を予測するデータは、学習に効果的に貢献するという仮説を立てます。この洞察を活用するために、データの予測力に基づくデータ選択(PreSelect)を導入します。これは、fastTextベースのスコアラーを訓練および展開するだけで済む、軽量で効率的なデータ選択方法です。1Bおよび3Bパラメータのモデルを用いた包括的な実験を通じて、PreSelectで選択された30Bトークンで訓練されたモデルが、300Bトークンで訓練されたベースラインの性能を上回り、計算リソースを10分の1に削減できることを示します。さらに、PreSelectは、3Bモデルを100Bトークンで訓練した場合、DCLMやFineWeb-Eduなどの他の競合するデータ選択ベースラインを大幅に上回ります。訓練されたデータ選択スコアラーとキュレーションされたデータセットをhttps://github.com/hkust-nlp/PreSelectで公開しています。