OptiMer : La fusion optimale des vecteurs de distribution est plus efficace que le mélange de données pour le pré-entraînement continu

Résumé

Le pré-entraînement continu (CPT) est largement utilisé pour adapter les LLMs aux langues et domaines cibles, mais le ratio de mélange des données d'entraînement reste un hyperparamètre sensible dont le réglage est coûteux : il doit être fixé avant le début de l'entraînement, et un choix sous-optimal peut gaspiller des semaines de calcul. Dans ce travail, nous proposons OptiMer, qui découple la sélection des ratios de l'entraînement : nous entraînons un modèle CPT par jeu de données, extrayons le vecteur de distribution de chaque modèle (qui représente le déplacement paramétrique induit par ce jeu de données), et recherchons des poids de composition optimaux a posteriori via l'optimisation bayésienne. Les expériences sur Gemma 3 27B, couvrant des langues (japonais, chinois) et des domaines (mathématiques, code), montrent qu'OptiMer surpasse systématiquement les bases de référence de mélange de données et de moyennage de modèles, avec un coût de recherche 15 à 35 fois inférieur. Les principaux résultats révèlent que 1) les poids optimisés peuvent être interprétés comme des ratios de mélange de données, et que le réentraînement avec ces ratios améliore le CPT par mélange de données, et 2) le même pool de vecteurs peut être ré-optimisé pour un objectif donné sans aucun réentraînement, produisant à la demande des modèles adaptés à la cible. Notre travail établit que la sélection des ratios de mélange de données, traditionnellement une décision de pré-entraînement, peut être reformulée comme une optimisation a posteriori sur des vecteurs de distribution, offrant un paradigme plus flexible pour le pré-entraînement continu.

English

Continual pre-training is widely used to adapt LLMs to target languages and domains, yet the mixture ratio of training data remains a sensitive hyperparameter that is expensive to tune: they must be fixed before training begins, and a suboptimal choice can waste weeks of compute. In this work, we propose OptiMer, which decouples ratio selection from training: we train one CPT model per dataset, extract each model's distribution vector, which represents the parameter shift induced by that dataset, and search for optimal composition weights post-hoc via Bayesian optimization. Experiments on Gemma 3 27B across languages (Japanese, Chinese) and domains (Math, Code) show that OptiMer consistently outperforms data mixture and model averaging baselines with 15-35 times lower search cost. Key findings reveal that 1) the optimized weights can be interpreted as data mixture ratios, and retraining with these ratios improves data mixture CPT, and 2) the same vector pool can be re-optimized for a given objective without any retraining, producing target-tailored models on demand. Our work establishes that data mixture ratio selection, traditionally a pre-training decision, can be reformulated as a post-hoc optimization over distribution vectors, offering a more flexible paradigm for continual pre-training.

OptiMer : La fusion optimale des vecteurs de distribution est plus efficace que le mélange de données pour le pré-entraînement continu

OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

Résumé

Support