ChatPaper.aiChatPaper

データミキシングエージェント:継続的プリトレーニングのためのドメイン再重み付け学習

Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training

July 21, 2025
著者: Kailai Yang, Xiao Liu, Lei Ji, Hao Li, Yeyun Gong, Peng Cheng, Mao Yang
cs.AI

要旨

小規模なタスク固有データを用いた継続的な事前学習は、大規模言語モデルを新たなターゲット分野で改善する効果的な方法であるが、元の能力の破滅的な忘却を引き起こすリスクがある。一般的な解決策は、ドメイン空間におけるソース分野とターゲット分野のトレーニングデータの混合比率を再調整し、バランスの取れた性能を達成することである。従来のドメイン再調整戦略は、人間の直感や経験的結果に基づいた特定のヒューリスティックを用いた手動指定に依存していた。本研究では、より一般的なヒューリスティックをパラメータ化できることを証明し、ドメインの重み付けを学習する初のモデルベースのエンドツーエンドフレームワークであるData Mixing Agentを提案する。このエージェントは、評価環境からのフィードバックと共に大量のデータ混合軌跡に対して強化学習を行うことで、一般化可能なヒューリスティックを学習する。数学的推論における継続的事前学習の実験では、Data Mixing Agentがソース分野とターゲット分野のベンチマークでバランスの取れた性能を達成する点で強力なベースラインを上回ることが示された。さらに、未見のソース分野、ターゲットモデル、ドメイン空間においても再トレーニングなしで良好な汎化性能を示す。コード生成分野への直接適用も、そのターゲットドメイン間での適応性を示唆している。さらなる分析により、エージェントのヒューリスティックが人間の直感とよく一致し、より少ないソース分野データで優れたモデル性能を達成する効率性が明らかになった。
English
Continual pre-training on small-scale task-specific data is an effective method for improving large language models in new target fields, yet it risks catastrophic forgetting of their original capabilities. A common solution is to re-weight training data mixtures from source and target fields on a domain space to achieve balanced performance. Previous domain reweighting strategies rely on manual designation with certain heuristics based on human intuition or empirical results. In this work, we prove that more general heuristics can be parameterized by proposing Data Mixing Agent, the first model-based, end-to-end framework that learns to re-weight domains. The agent learns generalizable heuristics through reinforcement learning on large quantities of data mixing trajectories with corresponding feedback from an evaluation environment. Experiments in continual pre-training on math reasoning show that Data Mixing Agent outperforms strong baselines in achieving balanced performance across source and target field benchmarks. Furthermore, it generalizes well across unseen source fields, target models, and domain spaces without retraining. Direct application to the code generation field also indicates its adaptability across target domains. Further analysis showcases the agents' well-aligned heuristics with human intuitions and their efficiency in achieving superior model performance with less source-field data.
PDF31July 22, 2025