OptiMer: Optimales Zusammenführen von Verteilungsvektoren ist besser als Datenmischen für kontinuierliches Vortraining

Zusammenfassung

Kontinuierliches Vortraining wird häufig eingesetzt, um große Sprachmodelle (LLMs) an Zielsprachen und Domänen anzupassen. Dennoch bleibt das Mischverhältnis der Trainingsdaten ein sensibler Hyperparameter, dessen Optimierung kostspielig ist: Die Verhältnisse müssen vor Trainingsbeginn festgelegt werden, und eine suboptimale Wahl kann wochenlange Rechenzeit verschwenden. In dieser Arbeit schlagen wir OptiMer vor, das die Verhältniswahl vom Training entkoppelt: Wir trainieren ein CPT-Modell pro Datensatz, extrahieren den Distributionsvektor jedes Modells, der die durch den Datensatz induzierte Parameterverschiebung repräsentiert, und suchen nachträglich via Bayesianischer Optimierung nach optimalen Kompositionsgewichten. Experimente mit Gemma 3 27B über Sprachen (Japanisch, Chinesisch) und Domänen (Mathematik, Code) hinweg zeigen, dass OptiMer Datenmischungs- und Modellmittelungs-Baselines konsistent übertrifft, bei 15-35 mal geringeren Suchkosten. Zentrale Erkenntnisse zeigen, dass 1) die optimierten Gewichte als Datenmischungsverhältnisse interpretiert werden können und ein Retraining mit diesen Verhältnissen das Datenmischungs-CPT verbessert, und 2) derselbe Vektorpool für ein gegebenes Ziel ohne erneutes Training re-optimiert werden kann, um bedarfsgerecht maßgeschneiderte Modelle zu erzeugen. Unsere Arbeit zeigt, dass die Auswahl des Datenmischungsverhältnisses, traditionell eine Vortrainingsentscheidung, als nachträgliche Optimierung über Distributionsvektoren reformuliert werden kann, was ein flexibleres Paradigma für kontinuierliches Vortraining bietet.

English

Continual pre-training is widely used to adapt LLMs to target languages and domains, yet the mixture ratio of training data remains a sensitive hyperparameter that is expensive to tune: they must be fixed before training begins, and a suboptimal choice can waste weeks of compute. In this work, we propose OptiMer, which decouples ratio selection from training: we train one CPT model per dataset, extract each model's distribution vector, which represents the parameter shift induced by that dataset, and search for optimal composition weights post-hoc via Bayesian optimization. Experiments on Gemma 3 27B across languages (Japanese, Chinese) and domains (Math, Code) show that OptiMer consistently outperforms data mixture and model averaging baselines with 15-35 times lower search cost. Key findings reveal that 1) the optimized weights can be interpreted as data mixture ratios, and retraining with these ratios improves data mixture CPT, and 2) the same vector pool can be re-optimized for a given objective without any retraining, producing target-tailored models on demand. Our work establishes that data mixture ratio selection, traditionally a pre-training decision, can be reformulated as a post-hoc optimization over distribution vectors, offering a more flexible paradigm for continual pre-training.

OptiMer: Optimales Zusammenführen von Verteilungsvektoren ist besser als Datenmischen für kontinuierliches Vortraining

OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

Zusammenfassung

Support