SampleMix: Una strategia di miscelazione dei dati di pre-addestramento a livello di campione mediante il coordinamento di qualità e diversità dei dati
SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity
March 3, 2025
Autori: Xiangyu Xi, Deyang Kong, Jian Yang, Jiawei Yang, Zhengyu Chen, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI
Abstract
I metodi esistenti di miscelazione dei dati di pre-addestramento per i grandi modelli linguistici (LLM) seguono tipicamente un approccio basato sui domini, un processo top-down che determina prima i pesi dei domini e poi esegue un campionamento uniforme dei dati all'interno di ciascun dominio. Tuttavia, questi approcci trascurano significative sovrapposizioni e comunanze inter-dominio, non riuscendo a controllare la diversità globale del dataset di addestramento costruito. Inoltre, il campionamento uniforme all'interno dei domini ignora le caratteristiche specifiche a livello di campione, potenzialmente portando a una distribuzione dei dati subottimale. Per affrontare queste carenze, proponiamo un nuovo approccio di miscelazione dei dati a livello di campione basato su un paradigma bottom-up. Questo metodo esegue un campionamento globale inter-dominio valutando sistematicamente la qualità e la diversità di ciascun campione, determinando così dinamicamente la distribuzione ottimale dei domini. Esperimenti completi su più task downstream e valutazioni di perplessità dimostrano che SampleMix supera i metodi esistenti basati sui domini. Nel frattempo, SampleMix richiede da 1,4x a 2,1x passi di addestramento per raggiungere le prestazioni dei baseline, evidenziando il potenziale sostanziale di SampleMix per ottimizzare i dati di pre-addestramento.
English
Existing pretraining data mixing methods for large language models (LLMs)
typically follow a domain-wise methodology, a top-down process that first
determines domain weights and then performs uniform data sampling across each
domain. However, these approaches neglect significant inter-domain overlaps and
commonalities, failing to control the global diversity of the constructed
training dataset. Further, uniform sampling within domains ignores fine-grained
sample-specific features, potentially leading to suboptimal data distribution.
To address these shortcomings, we propose a novel sample-wise data mixture
approach based on a bottom-up paradigm. This method performs global
cross-domain sampling by systematically evaluating the quality and diversity of
each sample, thereby dynamically determining the optimal domain distribution.
Comprehensive experiments across multiple downstream tasks and perplexity
assessments demonstrate that SampleMix surpasses existing domain-based methods.
Meanwhile, SampleMix requires 1.4x to 2.1x training steps to achieves the
baselines' performance, highlighting the substantial potential of SampleMix to
optimize pre-training data.