OptiMer: La fusione ottimale dei vettori di distribuzione è migliore della miscelazione dei dati per il pre-addestramento continuo

Abstract

L'addestramento continuo pre-training è ampiamente utilizzato per adattare i LLM a lingue e domini target, tuttavia il rapporto di miscelazione dei dati di addestramento rimane un iperparametro sensibile e costoso da ottimizzare: questi rapporti devono essere fissati prima dell'inizio dell'addestramento, e una scelta non ottimale può sprecare settimane di potenza di calcolo. In questo lavoro, proponiamo OptiMer, che disaccoppia la selezione del rapporto dall'addestramento: addestriamo un modello CPT per ogni dataset, estraiamo il vettore di distribuzione di ciascun modello, che rappresenta lo spostamento parametrico indotto da quel dataset, e cerchiamo i pesi di composizione ottimali post-hoc tramite ottimizzazione bayesiana. Esperimenti su Gemma 3 27B su lingue (giapponese, cinese) e domini (Matematica, Codice) mostrano che OptiMer supera costantemente i baseline di miscela di dati e media dei modelli con un costo di ricerca inferiore di 15-35 volte. I risultati chiave rivelano che 1) i pesi ottimizzati possono essere interpretati come rapporti di miscela dei dati, e il riaddestramento con questi rapporti migliora il CPT con miscela di dati, e 2) lo stesso pool di vettori può essere ri-ottimizzato per un dato obiettivo senza alcun riaddestramento, producendo modelli su misura per il target on-demand. Il nostro lavoro stabilisce che la selezione del rapporto di miscela dei dati, tradizionalmente una decisione pre-addestramento, può essere riformulata come un'ottimizzazione post-hoc su vettori di distribuzione, offrendo un paradigma più flessibile per l'addestramento continuo pre-training.

English

Continual pre-training is widely used to adapt LLMs to target languages and domains, yet the mixture ratio of training data remains a sensitive hyperparameter that is expensive to tune: they must be fixed before training begins, and a suboptimal choice can waste weeks of compute. In this work, we propose OptiMer, which decouples ratio selection from training: we train one CPT model per dataset, extract each model's distribution vector, which represents the parameter shift induced by that dataset, and search for optimal composition weights post-hoc via Bayesian optimization. Experiments on Gemma 3 27B across languages (Japanese, Chinese) and domains (Math, Code) show that OptiMer consistently outperforms data mixture and model averaging baselines with 15-35 times lower search cost. Key findings reveal that 1) the optimized weights can be interpreted as data mixture ratios, and retraining with these ratios improves data mixture CPT, and 2) the same vector pool can be re-optimized for a given objective without any retraining, producing target-tailored models on demand. Our work establishes that data mixture ratio selection, traditionally a pre-training decision, can be reformulated as a post-hoc optimization over distribution vectors, offering a more flexible paradigm for continual pre-training.

OptiMer: La fusione ottimale dei vettori di distribuzione è migliore della miscelazione dei dati per il pre-addestramento continuo

OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

Abstract

Support