Agent de Mélange de Données : Apprentissage de la Repondération des Domaines pour le Pré-entraînement Continu

papers.abstract

Le pré-entraînement continu sur des données spécifiques à petite échelle est une méthode efficace pour améliorer les grands modèles de langage dans de nouveaux domaines cibles, mais il risque d'entraîner un oubli catastrophique de leurs capacités originales. Une solution courante consiste à rééquilibrer les mélanges de données d'entraînement provenant des domaines source et cible dans un espace de domaine pour obtenir des performances équilibrées. Les stratégies précédentes de rééquilibrage de domaine reposaient sur une désignation manuelle avec certaines heuristiques basées sur l'intuition humaine ou des résultats empiriques. Dans ce travail, nous démontrons que des heuristiques plus générales peuvent être paramétrisées en proposant Data Mixing Agent, le premier cadre de bout en bout basé sur un modèle qui apprend à rééquilibrer les domaines. L'agent apprend des heuristiques généralisables grâce à l'apprentissage par renforcement sur de grandes quantités de trajectoires de mélange de données avec des retours correspondants d'un environnement d'évaluation. Les expériences de pré-entraînement continu sur le raisonnement mathématique montrent que Data Mixing Agent surpasse des bases de référence solides pour atteindre des performances équilibrées sur les benchmarks des domaines source et cible. De plus, il généralise bien à des domaines source inconnus, des modèles cibles et des espaces de domaine sans nécessiter de réentraînement. Une application directe dans le domaine de la génération de code indique également son adaptabilité à travers différents domaines cibles. Une analyse approfondie met en évidence l'alignement des heuristiques de l'agent avec l'intuition humaine et son efficacité à obtenir des performances de modèle supérieures avec moins de données du domaine source.

English

Continual pre-training on small-scale task-specific data is an effective method for improving large language models in new target fields, yet it risks catastrophic forgetting of their original capabilities. A common solution is to re-weight training data mixtures from source and target fields on a domain space to achieve balanced performance. Previous domain reweighting strategies rely on manual designation with certain heuristics based on human intuition or empirical results. In this work, we prove that more general heuristics can be parameterized by proposing Data Mixing Agent, the first model-based, end-to-end framework that learns to re-weight domains. The agent learns generalizable heuristics through reinforcement learning on large quantities of data mixing trajectories with corresponding feedback from an evaluation environment. Experiments in continual pre-training on math reasoning show that Data Mixing Agent outperforms strong baselines in achieving balanced performance across source and target field benchmarks. Furthermore, it generalizes well across unseen source fields, target models, and domain spaces without retraining. Direct application to the code generation field also indicates its adaptability across target domains. Further analysis showcases the agents' well-aligned heuristics with human intuitions and their efficiency in achieving superior model performance with less source-field data.

Agent de Mélange de Données : Apprentissage de la Repondération des Domaines pour le Pré-entraînement Continu

Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training

papers.abstract

Support