SampleMix: Uma Estratégia de Mistura de Dados de Pré-treinamento Amostral por Coordenação de Qualidade e Diversidade de Dados
SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity
March 3, 2025
Autores: Xiangyu Xi, Deyang Kong, Jian Yang, Jiawei Yang, Zhengyu Chen, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI
Resumo
Os métodos existentes de mistura de dados de pré-treinamento para modelos de linguagem de grande escala (LLMs) geralmente seguem uma abordagem por domínio, um processo de cima para baixo que primeiro determina os pesos dos domínios e, em seguida, realiza uma amostragem uniforme de dados em cada domínio. No entanto, essas abordagens negligenciam sobreposições e características comuns significativas entre domínios, falhando em controlar a diversidade global do conjunto de dados de treinamento construído. Além disso, a amostragem uniforme dentro dos domínios ignora características específicas de cada amostra em nível granular, potencialmente levando a uma distribuição de dados subótima. Para abordar essas deficiências, propomos uma nova abordagem de mistura de dados por amostra baseada em um paradigma de baixo para cima. Esse método realiza uma amostragem global entre domínios avaliando sistematicamente a qualidade e a diversidade de cada amostra, determinando assim dinamicamente a distribuição ótima de domínios. Experimentos abrangentes em várias tarefas de downstream e avaliações de perplexidade demonstram que o SampleMix supera os métodos baseados em domínio existentes. Enquanto isso, o SampleMix requer de 1,4x a 2,1x mais etapas de treinamento para alcançar o desempenho das baselines, destacando o potencial substancial do SampleMix para otimizar os dados de pré-treinamento.
English
Existing pretraining data mixing methods for large language models (LLMs)
typically follow a domain-wise methodology, a top-down process that first
determines domain weights and then performs uniform data sampling across each
domain. However, these approaches neglect significant inter-domain overlaps and
commonalities, failing to control the global diversity of the constructed
training dataset. Further, uniform sampling within domains ignores fine-grained
sample-specific features, potentially leading to suboptimal data distribution.
To address these shortcomings, we propose a novel sample-wise data mixture
approach based on a bottom-up paradigm. This method performs global
cross-domain sampling by systematically evaluating the quality and diversity of
each sample, thereby dynamically determining the optimal domain distribution.
Comprehensive experiments across multiple downstream tasks and perplexity
assessments demonstrate that SampleMix surpasses existing domain-based methods.
Meanwhile, SampleMix requires 1.4x to 2.1x training steps to achieves the
baselines' performance, highlighting the substantial potential of SampleMix to
optimize pre-training data.Summary
AI-Generated Summary