ChatPaper.aiChatPaper

Desacoplar la Búsqueda del Entrenamiento: Escalado de Mezcla de Datos mediante Fusión de Modelos para el Preentrenamiento de Modelos de Lenguaje Grandes

Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training

January 31, 2026
Autores: Shengrui Li, Fei Zhao, Kaiyan Zhao, Jieying Ye, Haifeng Liu, Fangcheng Shi, Zheyong Xie, Yao Hu, Shaosheng Cao
cs.AI

Resumen

Determinar una mezcla de datos efectiva es un factor clave en el pre-entrenamiento de Modelos de Lenguaje a Gran Escala (LLM), donde los modelos deben equilibrar la competencia general con la destreza en tareas complejas como matemáticas y programación. Sin embargo, identificar una mezcla óptima sigue siendo un desafío abierto, ya que los enfoques existentes dependen de experimentos proxy a pequeña escala poco fiables o requieren una exploración a gran escala prohibitivamente costosa. Para abordar esto, proponemos Decouple Searching from Training Mix (DeMix), un marco novedoso que aprovecha la fusión de modelos para predecir proporciones de datos óptimas. En lugar de entrenar modelos proxy para cada mezcla muestreada, DeMix entrena modelos componentes en conjuntos de datos candidatos a gran escala y deriva proxies de mezcla de datos mediante fusión ponderada de modelos. Este paradigma desacopla la búsqueda de los costes de entrenamiento, permitiendo evaluar mezclas muestreadas ilimitadas sin carga adicional de entrenamiento y facilitando así un mejor descubrimiento de mezclas mediante más pruebas de búsqueda. Experimentos exhaustivos demuestran que DeMix rompe la compensación entre suficiencia, precisión y eficiencia, obteniendo la mezcla óptima con mayor rendimiento en benchmarks a un coste de búsqueda menor. Adicionalmente, publicamos DeMix Corpora, un conjunto de datos integral de 22 billones de tokens que comprende datos de pre-entrenamiento de alta calidad con mezclas validadas para facilitar la investigación abierta. Nuestro código y DeMix Corpora están disponibles en https://github.com/Lucius-lsr/DeMix.
English
Determining an effective data mixture is a key factor in Large Language Model (LLM) pre-training, where models must balance general competence with proficiency on hard tasks such as math and code. However, identifying an optimal mixture remains an open challenge, as existing approaches either rely on unreliable tiny-scale proxy experiments or require prohibitively expensive large-scale exploration. To address this, we propose Decouple Searching from Training Mix (DeMix), a novel framework that leverages model merging to predict optimal data ratios. Instead of training proxy models for every sampled mixture, DeMix trains component models on candidate datasets at scale and derives data mixture proxies via weighted model merging. This paradigm decouples search from training costs, enabling evaluation of unlimited sampled mixtures without extra training burden and thus facilitating better mixture discovery through more search trials. Extensive experiments demonstrate that DeMix breaks the trade-off between sufficiency, accuracy and efficiency, obtaining the optimal mixture with higher benchmark performance at lower search cost. Additionally, we release the DeMix Corpora, a comprehensive 22T-token dataset comprising high-quality pre-training data with validated mixtures to facilitate open research. Our code and DeMix Corpora is available at https://github.com/Lucius-lsr/DeMix.
PDF83February 8, 2026