ChatPaper.aiChatPaper

Ontkoppelen van zoeken en trainen: Schaalvergroting van datamixen via modelmerging voor pre-training van grote taalmmodellen

Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training

January 31, 2026
Auteurs: Shengrui Li, Fei Zhao, Kaiyan Zhao, Jieying Ye, Haifeng Liu, Fangcheng Shi, Zheyong Xie, Yao Hu, Shaosheng Cao
cs.AI

Samenvatting

Het bepalen van een effectieve datamix is een cruciale factor bij het vooraf trainen van Large Language Models (LLM's), waarbij modellen een balans moeten vinden tussen algemene competentie en bekwaamheid in moeilijke taken zoals wiskunde en code. Het identificeren van een optimale mix blijft echter een open uitdaging, omdat bestaande benaderingen ofwel vertrouwen op onbetrouwbare kleinschalige proxy-experimenten ofwel een verboden dure grootschalige verkenning vereisen. Om dit aan te pakken, stellen we Decouple Searching from Training Mix (DeMix) voor, een nieuw raamwerk dat modelmerging gebruikt om optimale dataverhoudingen te voorspellen. In plaats van voor elke bemonsterde mix proxymodellen te trainen, traint DeMix componentmodellen op kandidaat-datasets op schaal en leidt het datamix-proxies af via gewogen modelmerging. Dit paradigma ontkoppelt de zoekkosten van de trainingskosten, waardoor de evaluatie van onbeperkte bemonsterde mixes mogelijk wordt zonder extra trainingslast en zo een betere mixontdekking vergemakkelijkt door meer zoekpogingen. Uitgebreide experimenten tonen aan dat DeMix de afweging tussen volledigheid, nauwkeurigheid en efficiëntie doorbreekt, waarbij de optimale mix wordt verkregen met hogere benchmarkprestaties tegen lagere zoekkosten. Daarnaast brengen we de DeMix Corpora uit, een uitgebreide dataset van 22T tokens bestaande uit hoogwaardige trainingsdata met gevalideerde mixes om open onderzoek te faciliteren. Onze code en DeMix Corpora zijn beschikbaar op https://github.com/Lucius-lsr/DeMix.
English
Determining an effective data mixture is a key factor in Large Language Model (LLM) pre-training, where models must balance general competence with proficiency on hard tasks such as math and code. However, identifying an optimal mixture remains an open challenge, as existing approaches either rely on unreliable tiny-scale proxy experiments or require prohibitively expensive large-scale exploration. To address this, we propose Decouple Searching from Training Mix (DeMix), a novel framework that leverages model merging to predict optimal data ratios. Instead of training proxy models for every sampled mixture, DeMix trains component models on candidate datasets at scale and derives data mixture proxies via weighted model merging. This paradigm decouples search from training costs, enabling evaluation of unlimited sampled mixtures without extra training burden and thus facilitating better mixture discovery through more search trials. Extensive experiments demonstrate that DeMix breaks the trade-off between sufficiency, accuracy and efficiency, obtaining the optimal mixture with higher benchmark performance at lower search cost. Additionally, we release the DeMix Corpora, a comprehensive 22T-token dataset comprising high-quality pre-training data with validated mixtures to facilitate open research. Our code and DeMix Corpora is available at https://github.com/Lucius-lsr/DeMix.
PDF83February 8, 2026