ChatPaper.aiChatPaper

訓練と検索の分離:大規模言語モデル事前学習のためのモデル統合によるデータ混合のスケーリング

Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training

January 31, 2026
著者: Shengrui Li, Fei Zhao, Kaiyan Zhao, Jieying Ye, Haifeng Liu, Fangcheng Shi, Zheyong Xie, Yao Hu, Shaosheng Cao
cs.AI

要旨

効果的なデータ混合比率の決定は、大規模言語モデル(LLM)の事前学習における重要な要素であり、モデルは一般的な能力と、数学やコードのような難易度の高いタスクでの習熟度のバランスを取らなければならない。しかし、最適な混合比率の特定は未解決の課題であり、既存のアプローチは信頼性の低い小規模代理実験に依存するか、あるいは法外なコストがかかる大規模な探索を必要とする。この問題に対処するため、我々はモデルマージングを活用して最適なデータ比率を予測する新しいフレームワーク、Decouple Searching from Training Mix(DeMix)を提案する。DeMixは、各サンプリングされた混合比率に対して代理モデルを学習する代わりに、候補データセットで大規模にコンポーネントモデルを学習し、重み付きモデルマージングを通じてデータ混合比率の代理指標を導出する。このパラダイムは探索コストと学習コストを分離し、追加の学習負荷なく無制限のサンプリング混合比率を評価可能とし、より多くの探索試行を通じてより良い混合比率の発見を促進する。大規模な実験により、DeMixが十分性、正確性、効率性のトレードオフを打破し、より低い探索コストでより高いベンチマーク性能を持つ最適な混合比率を獲得できることを実証する。さらに、検証済み混合比率を含む高品質な事前学習データからなる総合的な22Tトークンのデータセット、DeMix Corporaを公開し、オープンな研究を促進する。我々のコードとDeMix Corporaはhttps://github.com/Lucius-lsr/DeMix で利用可能である。
English
Determining an effective data mixture is a key factor in Large Language Model (LLM) pre-training, where models must balance general competence with proficiency on hard tasks such as math and code. However, identifying an optimal mixture remains an open challenge, as existing approaches either rely on unreliable tiny-scale proxy experiments or require prohibitively expensive large-scale exploration. To address this, we propose Decouple Searching from Training Mix (DeMix), a novel framework that leverages model merging to predict optimal data ratios. Instead of training proxy models for every sampled mixture, DeMix trains component models on candidate datasets at scale and derives data mixture proxies via weighted model merging. This paradigm decouples search from training costs, enabling evaluation of unlimited sampled mixtures without extra training burden and thus facilitating better mixture discovery through more search trials. Extensive experiments demonstrate that DeMix breaks the trade-off between sufficiency, accuracy and efficiency, obtaining the optimal mixture with higher benchmark performance at lower search cost. Additionally, we release the DeMix Corpora, a comprehensive 22T-token dataset comprising high-quality pre-training data with validated mixtures to facilitate open research. Our code and DeMix Corpora is available at https://github.com/Lucius-lsr/DeMix.
PDF83February 8, 2026