SampleMix: Una Estrategia de Mezcla de Datos de Pre-entrenamiento Muestra por Muestra mediante la Coordinación de Calidad y Diversidad de Datos
SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity
March 3, 2025
Autores: Xiangyu Xi, Deyang Kong, Jian Yang, Jiawei Yang, Zhengyu Chen, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye
cs.AI
Resumen
Los métodos existentes de mezcla de datos de preentrenamiento para modelos de lenguaje de gran escala (LLMs) suelen seguir una metodología basada en dominios, un proceso de arriba hacia abajo que primero determina los pesos de los dominios y luego realiza un muestreo uniforme de datos en cada dominio. Sin embargo, estos enfoques pasan por alto las superposiciones y similitudes significativas entre dominios, lo que impide controlar la diversidad global del conjunto de datos de entrenamiento construido. Además, el muestreo uniforme dentro de los dominios ignora las características específicas de cada muestra a nivel granular, lo que puede resultar en una distribución de datos subóptima. Para abordar estas limitaciones, proponemos un novedoso enfoque de mezcla de datos basado en muestras, fundamentado en un paradigma de abajo hacia arriba. Este método realiza un muestreo global entre dominios evaluando sistemáticamente la calidad y diversidad de cada muestra, determinando así dinámicamente la distribución óptima de dominios. Experimentos exhaustivos en múltiples tareas posteriores y evaluaciones de perplejidad demuestran que SampleMix supera a los métodos basados en dominios existentes. Al mismo tiempo, SampleMix requiere entre 1.4x y 2.1x más pasos de entrenamiento para alcanzar el rendimiento de los métodos de referencia, lo que resalta el potencial sustancial de SampleMix para optimizar los datos de preentrenamiento.
English
Existing pretraining data mixing methods for large language models (LLMs)
typically follow a domain-wise methodology, a top-down process that first
determines domain weights and then performs uniform data sampling across each
domain. However, these approaches neglect significant inter-domain overlaps and
commonalities, failing to control the global diversity of the constructed
training dataset. Further, uniform sampling within domains ignores fine-grained
sample-specific features, potentially leading to suboptimal data distribution.
To address these shortcomings, we propose a novel sample-wise data mixture
approach based on a bottom-up paradigm. This method performs global
cross-domain sampling by systematically evaluating the quality and diversity of
each sample, thereby dynamically determining the optimal domain distribution.
Comprehensive experiments across multiple downstream tasks and perplexity
assessments demonstrate that SampleMix surpasses existing domain-based methods.
Meanwhile, SampleMix requires 1.4x to 2.1x training steps to achieves the
baselines' performance, highlighting the substantial potential of SampleMix to
optimize pre-training data.Summary
AI-Generated Summary