Разделение поиска и обучения: масштабирование смешивания данных с помощью объединения моделей для предварительного обучения больших языковых моделей
Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training
January 31, 2026
Авторы: Shengrui Li, Fei Zhao, Kaiyan Zhao, Jieying Ye, Haifeng Liu, Fangcheng Shi, Zheyong Xie, Yao Hu, Shaosheng Cao
cs.AI
Аннотация
Определение эффективной смеси данных является ключевым фактором при предварительном обучении больших языковых моделей (LLM), где модели должны балансировать между общей компетентностью и мастерством в сложных задачах, таких как математика и программирование. Однако поиск оптимальной смеси остается нерешенной проблемой, поскольку существующие подходы либо полагаются на ненадежные прокси-эксперименты в малом масштабе, либо требуют непомерно дорогого исследования в крупном масштабе. Чтобы решить эту проблему, мы предлагаем DeMix (Decouple Searching from Training Mix) — новую концепцию, которая использует слияние моделей для прогнозирования оптимальных пропорций данных. Вместо обучения прокси-моделей для каждой проверяемой смеси DeMix обучает компонентные модели на кандидатских наборах данных в крупном масштабе и выводит прокси-смеси данных посредством взвешенного слияния моделей. Эта парадигма разделяет затраты на поиск и обучение, позволяя оценивать неограниченное количество проверяемых смесей без дополнительной нагрузки по обучению и, таким образом, способствуя лучшему обнаружению смесей за счет большего количества поисковых испытаний. Многочисленные эксперименты демонстрируют, что DeMix преодолевает компромисс между достаточностью, точностью и эффективностью, обеспечивая получение оптимальной смеси с более высокой производительностью на бенчмарках при меньших затратах на поиск. Кроме того, мы публикуем DeMix Corpora — всеобъемлющий набор данных объемом 22 триллиона токенов, содержащий высококачественные данные для предварительного обучения с проверенными смесями для содействия открытым исследованиям. Наш код и DeMix Corpora доступны по адресу https://github.com/Lucius-lsr/DeMix.
English
Determining an effective data mixture is a key factor in Large Language Model (LLM) pre-training, where models must balance general competence with proficiency on hard tasks such as math and code. However, identifying an optimal mixture remains an open challenge, as existing approaches either rely on unreliable tiny-scale proxy experiments or require prohibitively expensive large-scale exploration. To address this, we propose Decouple Searching from Training Mix (DeMix), a novel framework that leverages model merging to predict optimal data ratios. Instead of training proxy models for every sampled mixture, DeMix trains component models on candidate datasets at scale and derives data mixture proxies via weighted model merging. This paradigm decouples search from training costs, enabling evaluation of unlimited sampled mixtures without extra training burden and thus facilitating better mixture discovery through more search trials. Extensive experiments demonstrate that DeMix breaks the trade-off between sufficiency, accuracy and efficiency, obtaining the optimal mixture with higher benchmark performance at lower search cost. Additionally, we release the DeMix Corpora, a comprehensive 22T-token dataset comprising high-quality pre-training data with validated mixtures to facilitate open research. Our code and DeMix Corpora is available at https://github.com/Lucius-lsr/DeMix.