Desacoplar a Busca do Treinamento: Escalonando a Mistura de Dados via Fusão de Modelos para o Pré-treinamento de Grandes Modelos de Linguagem

Resumo

A determinação de uma mistura de dados eficaz é um fator crucial no pré-treinamento de Grandes Modelos de Linguagem (LLMs), onde os modelos devem equilibrar competência geral com proficiência em tarefas complexas, como matemática e programação. No entanto, identificar uma mistura ideal permanece um desafio em aberto, uma vez que as abordagens existentes dependem de experimentos proxy em pequena escala não confiáveis ou exigem uma exploração em larga escala proibitivamente cara. Para resolver isso, propomos o Decouple Searching from Training Mix (DeMix), uma estrutura inovadora que aproveita a fusão de modelos para prever proporções ideais de dados. Em vez de treinar modelos proxy para cada mistura amostrada, o DeMix treina modelos componentes em conjuntos de dados candidatos em escala e deriva proxies de mistura de dados por meio de fusão ponderada de modelos. Este paradigma desacopla os custos de busca dos custos de treinamento, permitindo a avaliação de misturas amostradas ilimitadas sem carga extra de treinamento e, assim, facilitando uma melhor descoberta de misturas por meio de mais tentativas de busca. Experimentos extensivos demonstram que o DeMix rompe o compromisso entre suficiência, precisão e eficiência, obtendo a mistura ideal com maior desempenho de referência a um custo de busca menor. Adicionalmente, disponibilizamos o DeMix Corpora, um conjunto abrangente de 22 trilhões de tokens composto por dados de pré-treinamento de alta qualidade com misturas validadas para facilitar a pesquisa aberta. Nosso código e o DeMix Corpora estão disponíveis em https://github.com/Lucius-lsr/DeMix.

English

Determining an effective data mixture is a key factor in Large Language Model (LLM) pre-training, where models must balance general competence with proficiency on hard tasks such as math and code. However, identifying an optimal mixture remains an open challenge, as existing approaches either rely on unreliable tiny-scale proxy experiments or require prohibitively expensive large-scale exploration. To address this, we propose Decouple Searching from Training Mix (DeMix), a novel framework that leverages model merging to predict optimal data ratios. Instead of training proxy models for every sampled mixture, DeMix trains component models on candidate datasets at scale and derives data mixture proxies via weighted model merging. This paradigm decouples search from training costs, enabling evaluation of unlimited sampled mixtures without extra training burden and thus facilitating better mixture discovery through more search trials. Extensive experiments demonstrate that DeMix breaks the trade-off between sufficiency, accuracy and efficiency, obtaining the optimal mixture with higher benchmark performance at lower search cost. Additionally, we release the DeMix Corpora, a comprehensive 22T-token dataset comprising high-quality pre-training data with validated mixtures to facilitate open research. Our code and DeMix Corpora is available at https://github.com/Lucius-lsr/DeMix.

Desacoplar a Busca do Treinamento: Escalonando a Mistura de Dados via Fusão de Modelos para o Pré-treinamento de Grandes Modelos de Linguagem

Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training

Resumo

Support