SampleMix: Eine stichprobenbasierte Pre-Training-Datenmischstrategie durch Koordination von Datenqualität und Diversität
SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity
March 3, 2025
Autoren: Xiangyu Xi, Deyang Kong, Jian Yang, Jiawei Yang, Zhengyu Chen, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI
Zusammenfassung
Bestehende Methoden zur Mischung von Vortrainingsdaten für große Sprachmodelle (LLMs) folgen typischerweise einem domänenbasierten Ansatz, einem Top-down-Prozess, bei dem zunächst Domänengewichte bestimmt und dann eine gleichmäßige Datenstichprobe innerhalb jeder Domäne durchgeführt wird. Diese Ansätze vernachlässigen jedoch signifikante Überschneidungen und Gemeinsamkeiten zwischen den Domänen und versäumen es, die globale Diversität des erstellten Trainingsdatensatzes zu steuern. Darüber hinaus ignoriert die gleichmäßige Stichprobenziehung innerhalb der Domänen feinkörnige, spezifische Merkmale der einzelnen Proben, was potenziell zu einer suboptimalen Datenverteilung führt. Um diese Mängel zu beheben, schlagen wir einen neuartigen, probenbasierten Datenmischungsansatz vor, der auf einem Bottom-up-Paradigma basiert. Diese Methode führt eine globale, domänenübergreifende Stichprobenziehung durch, indem sie systematisch die Qualität und Diversität jeder Probe bewertet und dadurch die optimale Domänenverteilung dynamisch bestimmt. Umfassende Experimente über mehrere Downstream-Aufgaben und Perplexitätsbewertungen zeigen, dass SampleMix bestehende domänenbasierte Methoden übertrifft. Gleichzeitig benötigt SampleMix 1,4x bis 2,1x mehr Trainingsschritte, um die Leistung der Baselines zu erreichen, was das erhebliche Potenzial von SampleMix zur Optimierung von Vortrainingsdaten unterstreicht.
English
Existing pretraining data mixing methods for large language models (LLMs)
typically follow a domain-wise methodology, a top-down process that first
determines domain weights and then performs uniform data sampling across each
domain. However, these approaches neglect significant inter-domain overlaps and
commonalities, failing to control the global diversity of the constructed
training dataset. Further, uniform sampling within domains ignores fine-grained
sample-specific features, potentially leading to suboptimal data distribution.
To address these shortcomings, we propose a novel sample-wise data mixture
approach based on a bottom-up paradigm. This method performs global
cross-domain sampling by systematically evaluating the quality and diversity of
each sample, thereby dynamically determining the optimal domain distribution.
Comprehensive experiments across multiple downstream tasks and perplexity
assessments demonstrate that SampleMix surpasses existing domain-based methods.
Meanwhile, SampleMix requires 1.4x to 2.1x training steps to achieves the
baselines' performance, highlighting the substantial potential of SampleMix to
optimize pre-training data.Summary
AI-Generated Summary