QuaDMix: Selezione Bilanciata di Dati per Qualità e Diversità per un Addestramento Efficiente di LLM
QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining
April 23, 2025
Autori: Fengze Liu, Weidong Zhou, Binbin Liu, Zhimiao Yu, Yifan Zhang, Haobin Lin, Yifeng Yu, Xiaohuan Zhou, Taifeng Wang, Yong Cao
cs.AI
Abstract
La qualità e la diversità sono due metriche cruciali per i dati di addestramento dei grandi modelli linguistici (LLM), con un impatto positivo sulle prestazioni. Gli studi esistenti spesso ottimizzano queste metriche separatamente, tipicamente applicando prima un filtraggio per qualità e poi regolando le proporzioni dei dati. Tuttavia, questi approcci trascurano il compromesso intrinseco tra qualità e diversità, rendendo necessaria una loro considerazione congiunta. Dato un limite fisso di addestramento, è essenziale valutare sia la qualità di ogni punto dati sia il suo effetto complementare sull'intero dataset. In questo articolo, introduciamo un framework unificato per la selezione dei dati chiamato QuaDMix, che ottimizza automaticamente la distribuzione dei dati per il pre-addestramento degli LLM bilanciando sia la qualità che la diversità. Nello specifico, proponiamo prima diversi criteri per misurare la qualità dei dati e utilizziamo la classificazione per dominio per distinguere i punti dati, misurando così la diversità complessiva. QuaDMix impiega quindi una funzione di campionamento dati parametrica unificata che determina la probabilità di campionamento di ogni punto dati in base a queste etichette relative a qualità e diversità. Per accelerare la ricerca dei parametri ottimali coinvolti nel framework QuaDMix, conduciamo esperimenti simulati su modelli più piccoli e utilizziamo LightGBM per la ricerca dei parametri, ispirandoci al metodo RegMix. I nostri esperimenti su vari modelli e dataset dimostrano che QuaDMix raggiunge un miglioramento medio delle prestazioni del 7,2% su più benchmark. Questi risultati superano le strategie indipendenti per qualità e diversità, evidenziando la necessità e la capacità di bilanciare qualità e diversità dei dati.
English
Quality and diversity are two critical metrics for the training data of large
language models (LLMs), positively impacting performance. Existing studies
often optimize these metrics separately, typically by first applying quality
filtering and then adjusting data proportions. However, these approaches
overlook the inherent trade-off between quality and diversity, necessitating
their joint consideration. Given a fixed training quota, it is essential to
evaluate both the quality of each data point and its complementary effect on
the overall dataset. In this paper, we introduce a unified data selection
framework called QuaDMix, which automatically optimizes the data distribution
for LLM pretraining while balancing both quality and diversity. Specifically,
we first propose multiple criteria to measure data quality and employ domain
classification to distinguish data points, thereby measuring overall diversity.
QuaDMix then employs a unified parameterized data sampling function that
determines the sampling probability of each data point based on these quality
and diversity related labels. To accelerate the search for the optimal
parameters involved in the QuaDMix framework, we conduct simulated experiments
on smaller models and use LightGBM for parameters searching, inspired by the
RegMix method. Our experiments across diverse models and datasets demonstrate
that QuaDMix achieves an average performance improvement of 7.2% across
multiple benchmarks. These results outperform the independent strategies for
quality and diversity, highlighting the necessity and ability to balance data
quality and diversity.