Data Mixing Agent: Het leren herwegen van domeinen voor voortgezette voorafgaande training

Samenvatting

Voortdurende voorafgaande training op kleinschalige, taakspecifieke gegevens is een effectieve methode om grote taalmodellen te verbeteren in nieuwe doelgebieden, maar het brengt het risico van catastrofaal verlies van hun oorspronkelijke capaciteiten met zich mee. Een veelgebruikte oplossing is het herverdelen van trainingsdatamengsels uit bron- en doelgebieden in een domeinruimte om een gebalanceerde prestaties te bereiken. Eerdere strategieën voor domeinherverdeling zijn gebaseerd op handmatige aanwijzingen met bepaalde heuristieken die voortkomen uit menselijke intuïtie of empirische resultaten. In dit werk tonen we aan dat meer algemene heuristieken geparametriseerd kunnen worden door de Data Mixing Agent voor te stellen, het eerste modelgebaseerde, end-to-end framework dat leert om domeinen te herverdelen. De agent leert generaliseerbare heuristieken door middel van reinforcement learning op grote hoeveelheden datamengtrajecten met bijbehorende feedback van een evaluatieomgeving. Experimenten met voortdurende voorafgaande training op wiskundig redeneren laten zien dat de Data Mixing Agent sterke baseline-methoden overtreft in het bereiken van gebalanceerde prestaties over bron- en doelgebiedbenchmarks. Bovendien generaliseert het goed over onbekende brongebieden, doelmodellen en domeinruimten zonder hertraining. Directe toepassing in het veld van codegeneratie geeft ook aan dat het aanpasbaar is over verschillende doeldomeinen. Verdere analyse toont aan dat de heuristieken van de agenten goed aansluiten bij menselijke intuïties en dat ze efficiënt zijn in het bereiken van superieure modelprestaties met minder gegevens uit het brongebied.

English

Continual pre-training on small-scale task-specific data is an effective method for improving large language models in new target fields, yet it risks catastrophic forgetting of their original capabilities. A common solution is to re-weight training data mixtures from source and target fields on a domain space to achieve balanced performance. Previous domain reweighting strategies rely on manual designation with certain heuristics based on human intuition or empirical results. In this work, we prove that more general heuristics can be parameterized by proposing Data Mixing Agent, the first model-based, end-to-end framework that learns to re-weight domains. The agent learns generalizable heuristics through reinforcement learning on large quantities of data mixing trajectories with corresponding feedback from an evaluation environment. Experiments in continual pre-training on math reasoning show that Data Mixing Agent outperforms strong baselines in achieving balanced performance across source and target field benchmarks. Furthermore, it generalizes well across unseen source fields, target models, and domain spaces without retraining. Direct application to the code generation field also indicates its adaptability across target domains. Further analysis showcases the agents' well-aligned heuristics with human intuitions and their efficiency in achieving superior model performance with less source-field data.

Data Mixing Agent: Het leren herwegen van domeinen voor voortgezette voorafgaande training

Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training

Samenvatting

Support