Entkopplung von Suche und Training: Skalierung von Datenmischung durch Modellfusion für das Vortraining großer Sprachmodelle
Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training
January 31, 2026
papers.authors: Shengrui Li, Fei Zhao, Kaiyan Zhao, Jieying Ye, Haifeng Liu, Fangcheng Shi, Zheyong Xie, Yao Hu, Shaosheng Cao
cs.AI
papers.abstract
Die Bestimmung einer effektiven Datenmischung ist ein Schlüsselfaktor beim Vortraining großer Sprachmodelle (LLM), bei dem Modelle allgemeine Kompetenz mit Fähigkeiten in anspruchsvollen Aufgaben wie Mathematik und Programmierung in Einklang bringen müssen. Die Identifizierung einer optimalen Mischung bleibt jedoch eine ungelöste Herausforderung, da bestehende Ansätze entweder auf unzuverlässigen Proxy-Experimenten im kleinen Maßstab beruhen oder unverhältnismäßig teure groß angelegte Explorationen erfordern. Um dies zu lösen, schlagen wir Decouple Searching from Training Mix (DeMix) vor, einen neuartigen Rahmen, der Modellfusion nutzt, um optimale Datenverhältnisse vorherzusagen. Anstatt Proxy-Modelle für jede beprobte Mischung zu trainieren, trainiert DeMix Komponentenmodelle auf Kandidatendatensätzen im großen Maßstab und leitet Datenmischungs-Proxys durch gewichtete Modellfusion ab. Dieses Paradigma entkoppelt die Suchkosten von den Trainingskosten, ermöglicht die Bewertung unbegrenzter beprobter Mischungen ohne zusätzlichen Trainingsaufwand und erleichtert so die Entdeckung besserer Mischungen durch mehr Suchversuche. Umfangreiche Experimente zeigen, dass DeMix den Zielkonflikt zwischen Ausreichendheit, Genauigkeit und Effizienz aufhebt und die optimale Mischung mit höherer Benchmark-Leistung bei geringeren Suchkosten erzielt. Zusätzlich veröffentlichen wir die DeMix Corpora, einen umfassenden 22-Billionen-Token-Datensatz, der hochwertige Vortrainingsdaten mit validierten Mischungen umfasst, um offene Forschung zu ermöglichen. Unser Code und die DeMix Corpora sind verfügbar unter https://github.com/Lucius-lsr/DeMix.
English
Determining an effective data mixture is a key factor in Large Language Model (LLM) pre-training, where models must balance general competence with proficiency on hard tasks such as math and code. However, identifying an optimal mixture remains an open challenge, as existing approaches either rely on unreliable tiny-scale proxy experiments or require prohibitively expensive large-scale exploration. To address this, we propose Decouple Searching from Training Mix (DeMix), a novel framework that leverages model merging to predict optimal data ratios. Instead of training proxy models for every sampled mixture, DeMix trains component models on candidate datasets at scale and derives data mixture proxies via weighted model merging. This paradigm decouples search from training costs, enabling evaluation of unlimited sampled mixtures without extra training burden and thus facilitating better mixture discovery through more search trials. Extensive experiments demonstrate that DeMix breaks the trade-off between sufficiency, accuracy and efficiency, obtaining the optimal mixture with higher benchmark performance at lower search cost. Additionally, we release the DeMix Corpora, a comprehensive 22T-token dataset comprising high-quality pre-training data with validated mixtures to facilitate open research. Our code and DeMix Corpora is available at https://github.com/Lucius-lsr/DeMix.