ChatPaper.aiChatPaper

Découpler la recherche de l'entraînement : Mise à l'échelle du mélange de données par fusion de modèles pour le pré-entraînement des grands modèles de langage

Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training

January 31, 2026
papers.authors: Shengrui Li, Fei Zhao, Kaiyan Zhao, Jieying Ye, Haifeng Liu, Fangcheng Shi, Zheyong Xie, Yao Hu, Shaosheng Cao
cs.AI

papers.abstract

La détermination d'un mélange de données efficace est un facteur clé dans le pré-entraînement des modèles de langage à grande échelle (LLM), où les modèles doivent équilibrer les compétences générales et la maîtrise de tâches complexes telles que les mathématiques et le code. Cependant, l'identification d'un mélange optimal reste un défi ouvert, car les approches existantes reposent soit sur des expériences proxy à petite échelle peu fiables, soit nécessitent une exploration à grande échelle prohibitivement coûteuse. Pour y remédier, nous proposons Decouple Searching from Training Mix (DeMix), un nouveau cadre qui exploite la fusion de modèles pour prédire les ratios de données optimaux. Au lieu d'entraîner des modèles proxy pour chaque mélange échantillonné, DeMix entraîne des modèles composants sur des ensembles de données candidats à grande échelle et dérive des proxies de mélange de données via une fusion de modèles pondérée. Ce paradigme découple la recherche des coûts d'entraînement, permettant d'évaluer un nombre illimité de mélanges échantillonnés sans charge d'entraînement supplémentaire et facilitant ainsi une meilleure découverte de mélanges grâce à davantage d'essais de recherche. Des expériences approfondies démontrent que DeMix brise le compromis entre exhaustivité, précision et efficacité, obtenant le mélange optimal avec de meilleures performances sur les benchmarks à un coût de recherche inférieur. De plus, nous publions le DeMix Corpora, un ensemble de données complet de 22 000 milliards de tokens comprenant des données de pré-entraînement de haute qualité avec des mélanges validés pour faciliter la recherche ouverte. Notre code et le DeMix Corpora sont disponibles à l'adresse https://github.com/Lucius-lsr/DeMix.
English
Determining an effective data mixture is a key factor in Large Language Model (LLM) pre-training, where models must balance general competence with proficiency on hard tasks such as math and code. However, identifying an optimal mixture remains an open challenge, as existing approaches either rely on unreliable tiny-scale proxy experiments or require prohibitively expensive large-scale exploration. To address this, we propose Decouple Searching from Training Mix (DeMix), a novel framework that leverages model merging to predict optimal data ratios. Instead of training proxy models for every sampled mixture, DeMix trains component models on candidate datasets at scale and derives data mixture proxies via weighted model merging. This paradigm decouples search from training costs, enabling evaluation of unlimited sampled mixtures without extra training burden and thus facilitating better mixture discovery through more search trials. Extensive experiments demonstrate that DeMix breaks the trade-off between sufficiency, accuracy and efficiency, obtaining the optimal mixture with higher benchmark performance at lower search cost. Additionally, we release the DeMix Corpora, a comprehensive 22T-token dataset comprising high-quality pre-training data with validated mixtures to facilitate open research. Our code and DeMix Corpora is available at https://github.com/Lucius-lsr/DeMix.
PDF83February 8, 2026