SampleMix: Een strategie voor het mengen van pre-trainingsgegevens op monsterniveau door de kwaliteit en diversiteit van gegevens te coördineren
SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity
March 3, 2025
Auteurs: Xiangyu Xi, Deyang Kong, Jian Yang, Jiawei Yang, Zhengyu Chen, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI
Samenvatting
Bestaande methoden voor het mixen van vooraf getrainde gegevens voor grote taalmmodellen (LLMs) volgen doorgaans een domeingerichte aanpak, een top-down proces dat eerst domeingewichten bepaalt en vervolgens uniforme gegevenssteekproeven uitvoert binnen elk domein. Deze benaderingen negeren echter significante overlap en gemeenschappelijke kenmerken tussen domeinen, waardoor ze er niet in slagen de globale diversiteit van de samengestelde trainingsdataset te beheersen. Bovendien negeert uniforme steekproefname binnen domeinen fijnmazige, specifieke kenmerken van individuele steekproeven, wat kan leiden tot een suboptimale gegevensverdeling. Om deze tekortkomingen aan te pakken, stellen we een nieuwe steekproefgerichte gegevensmixmethode voor, gebaseerd op een bottom-up paradigma. Deze methode voert globale, domeinoverschrijdende steekproefname uit door systematisch de kwaliteit en diversiteit van elke steekproef te evalueren, waardoor dynamisch de optimale domeinverdeling wordt bepaald. Uitgebreide experimenten over meerdere downstream taken en perplexiteitsbeoordelingen tonen aan dat SampleMix bestaande domeingerichte methoden overtreft. Tegelijkertijd vereist SampleMix 1,4x tot 2,1x trainingsstappen om de prestaties van de referentiemethoden te bereiken, wat het aanzienlijke potentieel van SampleMix benadrukt om vooraf getrainde gegevens te optimaliseren.
English
Existing pretraining data mixing methods for large language models (LLMs)
typically follow a domain-wise methodology, a top-down process that first
determines domain weights and then performs uniform data sampling across each
domain. However, these approaches neglect significant inter-domain overlaps and
commonalities, failing to control the global diversity of the constructed
training dataset. Further, uniform sampling within domains ignores fine-grained
sample-specific features, potentially leading to suboptimal data distribution.
To address these shortcomings, we propose a novel sample-wise data mixture
approach based on a bottom-up paradigm. This method performs global
cross-domain sampling by systematically evaluating the quality and diversity of
each sample, thereby dynamically determining the optimal domain distribution.
Comprehensive experiments across multiple downstream tasks and perplexity
assessments demonstrate that SampleMix surpasses existing domain-based methods.
Meanwhile, SampleMix requires 1.4x to 2.1x training steps to achieves the
baselines' performance, highlighting the substantial potential of SampleMix to
optimize pre-training data.Summary
AI-Generated Summary