QuaDMix: 効率的なLLM事前学習のための品質と多様性を考慮したデータ選択
QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining
April 23, 2025
著者: Fengze Liu, Weidong Zhou, Binbin Liu, Zhimiao Yu, Yifan Zhang, Haobin Lin, Yifeng Yu, Xiaohuan Zhou, Taifeng Wang, Yong Cao
cs.AI
要旨
品質と多様性は、大規模言語モデル(LLM)の学習データにおける2つの重要な指標であり、性能に正の影響を与えます。既存の研究では、これらの指標を個別に最適化することが多く、通常はまず品質フィルタリングを適用し、その後データの比率を調整します。しかし、これらのアプローチは品質と多様性の間の本質的なトレードオフを見落としており、両者を同時に考慮する必要があります。固定された学習クォータが与えられた場合、各データポイントの品質と、データセット全体に対する補完的な効果を評価することが不可欠です。本論文では、QuaDMixと呼ばれる統一されたデータ選択フレームワークを紹介します。このフレームワークは、品質と多様性のバランスを取りながら、LLMの事前学習のためのデータ分布を自動的に最適化します。具体的には、まずデータ品質を測定するための複数の基準を提案し、ドメイン分類を用いてデータポイントを区別することで、全体の多様性を測定します。QuaDMixはその後、これらの品質と多様性に関連するラベルに基づいて各データポイントのサンプリング確率を決定する統一されたパラメータ化されたデータサンプリング関数を採用します。QuaDMixフレームワークに関わる最適なパラメータの探索を加速するために、より小さいモデルでシミュレーション実験を行い、RegMixメソッドにインスパイアされたLightGBMを用いてパラメータ探索を行います。多様なモデルとデータセットでの実験結果は、QuaDMixが複数のベンチマークで平均7.2%の性能向上を達成することを示しています。これらの結果は、品質と多様性の独立した戦略を上回り、データ品質と多様性のバランスを取る必要性と能力を強調しています。
English
Quality and diversity are two critical metrics for the training data of large
language models (LLMs), positively impacting performance. Existing studies
often optimize these metrics separately, typically by first applying quality
filtering and then adjusting data proportions. However, these approaches
overlook the inherent trade-off between quality and diversity, necessitating
their joint consideration. Given a fixed training quota, it is essential to
evaluate both the quality of each data point and its complementary effect on
the overall dataset. In this paper, we introduce a unified data selection
framework called QuaDMix, which automatically optimizes the data distribution
for LLM pretraining while balancing both quality and diversity. Specifically,
we first propose multiple criteria to measure data quality and employ domain
classification to distinguish data points, thereby measuring overall diversity.
QuaDMix then employs a unified parameterized data sampling function that
determines the sampling probability of each data point based on these quality
and diversity related labels. To accelerate the search for the optimal
parameters involved in the QuaDMix framework, we conduct simulated experiments
on smaller models and use LightGBM for parameters searching, inspired by the
RegMix method. Our experiments across diverse models and datasets demonstrate
that QuaDMix achieves an average performance improvement of 7.2% across
multiple benchmarks. These results outperform the independent strategies for
quality and diversity, highlighting the necessity and ability to balance data
quality and diversity.Summary
AI-Generated Summary