ChatPaper.aiChatPaper

SampleMix: データ品質と多様性を調整するサンプル単位の事前学習データ混合戦略

SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity

March 3, 2025
著者: Xiangyu Xi, Deyang Kong, Jian Yang, Jiawei Yang, Zhengyu Chen, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI

要旨

大規模言語モデル(LLM)のための既存の事前学習データ混合手法は、通常、ドメイン単位の方法論に従っており、まずドメインの重みを決定し、その後各ドメイン内で均一なデータサンプリングを行うトップダウンプロセスを採用しています。しかし、これらのアプローチは重要なドメイン間の重複や共通性を無視しており、構築されたトレーニングデータセットのグローバルな多様性を制御することができません。さらに、ドメイン内での均一なサンプリングは、細かい粒度のサンプル固有の特徴を無視し、最適でないデータ分布を引き起こす可能性があります。これらの欠点を解決するために、我々はボトムアップパラダイムに基づく新しいサンプル単位のデータ混合アプローチを提案します。この手法は、各サンプルの品質と多様性を体系的に評価することで、グローバルなクロスドメインサンプリングを行い、最適なドメイン分布を動的に決定します。複数の下流タスクとパープレキシティ評価にわたる包括的な実験により、SampleMixが既存のドメインベースの手法を凌駕することが示されました。一方、SampleMixはベースラインの性能を達成するために1.4倍から2.1倍のトレーニングステップを必要とし、事前学習データを最適化するSampleMixの大きな潜在能力が強調されています。
English
Existing pretraining data mixing methods for large language models (LLMs) typically follow a domain-wise methodology, a top-down process that first determines domain weights and then performs uniform data sampling across each domain. However, these approaches neglect significant inter-domain overlaps and commonalities, failing to control the global diversity of the constructed training dataset. Further, uniform sampling within domains ignores fine-grained sample-specific features, potentially leading to suboptimal data distribution. To address these shortcomings, we propose a novel sample-wise data mixture approach based on a bottom-up paradigm. This method performs global cross-domain sampling by systematically evaluating the quality and diversity of each sample, thereby dynamically determining the optimal domain distribution. Comprehensive experiments across multiple downstream tasks and perplexity assessments demonstrate that SampleMix surpasses existing domain-based methods. Meanwhile, SampleMix requires 1.4x to 2.1x training steps to achieves the baselines' performance, highlighting the substantial potential of SampleMix to optimize pre-training data.

Summary

AI-Generated Summary

PDF92March 4, 2025