Agente de Mistura de Dados: Aprendendo a Re-ponderar Domínios para Pré-treinamento Contínuo

Resumo

O pré-treinamento contínuo em pequenos conjuntos de dados específicos para tarefas é um método eficaz para melhorar modelos de linguagem de grande escala em novos campos de interesse, mas corre o risco de causar esquecimento catastrófico de suas capacidades originais. Uma solução comum é reequilibrar as misturas de dados de treinamento dos campos de origem e de destino em um espaço de domínio para alcançar desempenho equilibrado. Estratégias anteriores de reequilíbrio de domínio dependem de designações manuais com certas heurísticas baseadas em intuição humana ou resultados empíricos. Neste trabalho, demonstramos que heurísticas mais gerais podem ser parametrizadas ao propor o Agente de Mistura de Dados, o primeiro framework baseado em modelo e de ponta a ponta que aprende a reequilibrar domínios. O agente aprende heurísticas generalizáveis por meio de aprendizado por reforço em grandes quantidades de trajetórias de mistura de dados com feedback correspondente de um ambiente de avaliação. Experimentos de pré-treinamento contínuo em raciocínio matemático mostram que o Agente de Mistura de Dados supera baselines fortes ao alcançar desempenho equilibrado em benchmarks de campos de origem e de destino. Além disso, ele generaliza bem em campos de origem não vistos, modelos de destino e espaços de domínio sem necessidade de retreinamento. A aplicação direta no campo de geração de código também indica sua adaptabilidade entre domínios de destino. Análises adicionais mostram que as heurísticas do agente estão bem alinhadas com intuições humanas e sua eficiência em alcançar desempenho superior do modelo com menos dados do campo de origem.

English

Continual pre-training on small-scale task-specific data is an effective method for improving large language models in new target fields, yet it risks catastrophic forgetting of their original capabilities. A common solution is to re-weight training data mixtures from source and target fields on a domain space to achieve balanced performance. Previous domain reweighting strategies rely on manual designation with certain heuristics based on human intuition or empirical results. In this work, we prove that more general heuristics can be parameterized by proposing Data Mixing Agent, the first model-based, end-to-end framework that learns to re-weight domains. The agent learns generalizable heuristics through reinforcement learning on large quantities of data mixing trajectories with corresponding feedback from an evaluation environment. Experiments in continual pre-training on math reasoning show that Data Mixing Agent outperforms strong baselines in achieving balanced performance across source and target field benchmarks. Furthermore, it generalizes well across unseen source fields, target models, and domain spaces without retraining. Direct application to the code generation field also indicates its adaptability across target domains. Further analysis showcases the agents' well-aligned heuristics with human intuitions and their efficiency in achieving superior model performance with less source-field data.

Agente de Mistura de Dados: Aprendendo a Re-ponderar Domínios para Pré-treinamento Contínuo

Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training

Resumo

Support