OptiMer: A Fusão Ótima de Vetores de Distribuição é Superior à Mistura de Dados no Pré-Treinamento Contínuo

Resumo

O pré-treinamento contínuo é amplamente utilizado para adaptar LLMs a idiomas e domínios específicos, no entanto, a proporção de mistura dos dados de treinamento permanece um hiperparâmetro sensível e dispendioso de ajustar: as proporções devem ser definidas antes do início do treinamento, e uma escolha subótima pode desperdiçar semanas de computação. Neste trabalho, propomos o OptiMer, que desacopla a seleção da proporção do treinamento: treinamos um modelo de CPT por conjunto de dados, extraímos o vetor de distribuição de cada modelo, que representa a mudança de parâmetro induzida por aquele conjunto de dados, e buscamos os pesos de composição ideais *post-hoc* via otimização bayesiana. Experimentos com o Gemma 3 27B em idiomas (Japonês, Chinês) e domínios (Matemática, Código) mostram que o OptiMer supera consistentemente os baselines de mistura de dados e média de modelos com um custo de busca 15 a 35 vezes menor. Principais descobertas revelam que 1) os pesos otimizados podem ser interpretados como proporções de mistura de dados, e o retreinamento com essas proporções melhora o CPT por mistura de dados, e 2) o mesmo conjunto de vetores pode ser reotimizado para um determinado objetivo sem qualquer retreinamento, produzindo modelos sob medida para o objetivo sob demanda. Nosso trabalho estabelece que a seleção da proporção de mistura de dados, tradicionalmente uma decisão de pré-treinamento, pode ser reformulada como uma otimização *post-hoc* sobre vetores de distribuição, oferecendo um paradigma mais flexível para o pré-treinamento contínuo.

English

Continual pre-training is widely used to adapt LLMs to target languages and domains, yet the mixture ratio of training data remains a sensitive hyperparameter that is expensive to tune: they must be fixed before training begins, and a suboptimal choice can waste weeks of compute. In this work, we propose OptiMer, which decouples ratio selection from training: we train one CPT model per dataset, extract each model's distribution vector, which represents the parameter shift induced by that dataset, and search for optimal composition weights post-hoc via Bayesian optimization. Experiments on Gemma 3 27B across languages (Japanese, Chinese) and domains (Math, Code) show that OptiMer consistently outperforms data mixture and model averaging baselines with 15-35 times lower search cost. Key findings reveal that 1) the optimized weights can be interpreted as data mixture ratios, and retraining with these ratios improves data mixture CPT, and 2) the same vector pool can be re-optimized for a given objective without any retraining, producing target-tailored models on demand. Our work establishes that data mixture ratio selection, traditionally a pre-training decision, can be reformulated as a post-hoc optimization over distribution vectors, offering a more flexible paradigm for continual pre-training.

OptiMer: A Fusão Ótima de Vetores de Distribuição é Superior à Mistura de Dados no Pré-Treinamento Contínuo

OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

Resumo

Support