Separare la Ricerca dall'Addestramento: Scalabilità del Mix di Dati tramite Fusione di Modelli per il Pre-addestramento di Grandi Modelli Linguistici

Abstract

Determinare una miscela di dati efficace è un fattore chiave nella pre-addestramento dei Large Language Model (LLM), dove i modelli devono bilanciare competenze generali con la padronanza di compiti complessi come la matematica e la programmazione. Tuttavia, identificare una miscela ottimale rimane una sfida aperta, poiché gli approcci esistenti si basano su esperimenti proxy su piccola scala inaffidabili o richiedono esplorazioni su larga scala proibitivamente costose. Per affrontare questo problema, proponiamo Decouple Searching from Training Mix (DeMix), un nuovo framework che sfrutta il merging di modelli per prevedere i rapporti ottimali dei dati. Invece di addestrare modelli proxy per ogni miscela campionata, DeMix addestra modelli componenti su dataset candidati su larga scala e deriva i proxy della miscela di dati tramite il merging ponderato dei modelli. Questo paradigma disaccoppia la ricerca dai costi di addestramento, consentendo la valutazione di miscele campionate illimitate senza oneri addizionali di training e facilitando così una migliore scoperta della miscela attraverso più prove di ricerca. Esperimenti estensivi dimostrano che DeMix supera il compromesso tra sufficienza, accuratezza ed efficienza, ottenendo la miscela ottimale con prestazioni benchmark superiori a costi di ricerca inferiori. Inoltre, rilasciamo i DeMix Corpora, un dataset completo da 22T di token comprendente dati di pre-addestramento di alta qualità con miscele validate per facilitare la ricerca aperta. Il nostro codice e i DeMix Corpora sono disponibili su https://github.com/Lucius-lsr/DeMix.

English

Determining an effective data mixture is a key factor in Large Language Model (LLM) pre-training, where models must balance general competence with proficiency on hard tasks such as math and code. However, identifying an optimal mixture remains an open challenge, as existing approaches either rely on unreliable tiny-scale proxy experiments or require prohibitively expensive large-scale exploration. To address this, we propose Decouple Searching from Training Mix (DeMix), a novel framework that leverages model merging to predict optimal data ratios. Instead of training proxy models for every sampled mixture, DeMix trains component models on candidate datasets at scale and derives data mixture proxies via weighted model merging. This paradigm decouples search from training costs, enabling evaluation of unlimited sampled mixtures without extra training burden and thus facilitating better mixture discovery through more search trials. Extensive experiments demonstrate that DeMix breaks the trade-off between sufficiency, accuracy and efficiency, obtaining the optimal mixture with higher benchmark performance at lower search cost. Additionally, we release the DeMix Corpora, a comprehensive 22T-token dataset comprising high-quality pre-training data with validated mixtures to facilitate open research. Our code and DeMix Corpora is available at https://github.com/Lucius-lsr/DeMix.

Separare la Ricerca dall'Addestramento: Scalabilità del Mix di Dati tramite Fusione di Modelli per il Pre-addestramento di Grandi Modelli Linguistici

Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training

Abstract

Support