ChatPaper.aiChatPaper

QuaDMix: Сбалансированный отбор данных по качеству и разнообразию для эффективного предобучения больших языковых моделей

QuaDMix: Quality-Diversity Balanced Data Selection for Efficient LLM Pretraining

April 23, 2025
Авторы: Fengze Liu, Weidong Zhou, Binbin Liu, Zhimiao Yu, Yifan Zhang, Haobin Lin, Yifeng Yu, Xiaohuan Zhou, Taifeng Wang, Yong Cao
cs.AI

Аннотация

Качество и разнообразие являются двумя ключевыми метриками для обучающих данных крупных языковых моделей (LLM), положительно влияющими на их производительность. Существующие исследования часто оптимизируют эти метрики по отдельности, обычно сначала применяя фильтрацию по качеству, а затем корректируя пропорции данных. Однако такие подходы упускают из виду внутренний компромисс между качеством и разнообразием, что требует их совместного рассмотрения. При фиксированном объеме обучающих данных важно оценивать как качество каждого элемента данных, так и его дополнительный вклад в общий набор данных. В данной статье мы представляем унифицированную структуру выбора данных под названием QuaDMix, которая автоматически оптимизирует распределение данных для предварительного обучения LLM, балансируя качество и разнообразие. В частности, мы сначала предлагаем несколько критериев для измерения качества данных и используем классификацию по доменам для различения элементов данных, тем самым оценивая общее разнообразие. QuaDMix затем применяет унифицированную параметризованную функцию выборки данных, которая определяет вероятность выборки каждого элемента данных на основе меток, связанных с качеством и разнообразием. Для ускорения поиска оптимальных параметров, задействованных в структуре QuaDMix, мы проводим имитационные эксперименты на меньших моделях и используем LightGBM для поиска параметров, вдохновляясь методом RegMix. Наши эксперименты на различных моделях и наборах данных демонстрируют, что QuaDMix обеспечивает среднее улучшение производительности на 7,2% по множеству тестов. Эти результаты превосходят независимые стратегии для качества и разнообразия, подчеркивая необходимость и способность балансировать качество и разнообразие данных.
English
Quality and diversity are two critical metrics for the training data of large language models (LLMs), positively impacting performance. Existing studies often optimize these metrics separately, typically by first applying quality filtering and then adjusting data proportions. However, these approaches overlook the inherent trade-off between quality and diversity, necessitating their joint consideration. Given a fixed training quota, it is essential to evaluate both the quality of each data point and its complementary effect on the overall dataset. In this paper, we introduce a unified data selection framework called QuaDMix, which automatically optimizes the data distribution for LLM pretraining while balancing both quality and diversity. Specifically, we first propose multiple criteria to measure data quality and employ domain classification to distinguish data points, thereby measuring overall diversity. QuaDMix then employs a unified parameterized data sampling function that determines the sampling probability of each data point based on these quality and diversity related labels. To accelerate the search for the optimal parameters involved in the QuaDMix framework, we conduct simulated experiments on smaller models and use LightGBM for parameters searching, inspired by the RegMix method. Our experiments across diverse models and datasets demonstrate that QuaDMix achieves an average performance improvement of 7.2% across multiple benchmarks. These results outperform the independent strategies for quality and diversity, highlighting the necessity and ability to balance data quality and diversity.
PDF202April 25, 2025