TiKMiX : Intégrer l'influence des données dans un mélange dynamique pour le pré-entraînement de modèles de langage
TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training
August 25, 2025
papers.authors: Yifan Wang, Binbin Liu, Fengze Liu, Yuanfan Guo, Jiyao Deng, Xuecheng Wu, Weidong Zhou, Xiaohuan Zhou, Taifeng Wang
cs.AI
papers.abstract
Le mélange de données utilisé dans le pré-entraînement d'un modèle de langage est un élément fondamental de ses performances finales. Cependant, une stratégie de mélange statique est sous-optimale, car les préférences d'apprentissage du modèle pour différents domaines de données évoluent dynamiquement au cours de l'entraînement. De manière cruciale, observer ces préférences changeantes de manière efficace sur le plan computationnel reste un défi majeur. Pour y remédier, nous proposons TiKMiX, une méthode qui ajuste dynamiquement le mélange de données en fonction des préférences évolutives du modèle. TiKMiX introduit l'Influence de Groupe, une métrique efficace pour évaluer l'impact des domaines de données sur le modèle. Cette métrique permet de formuler le problème de mélange de données comme une recherche d'une distribution optimale maximisant l'influence. Nous résolvons ce problème via deux approches : TiKMiX-D pour une optimisation directe, et TiKMiX-M, qui utilise un modèle de régression pour prédire un mélange supérieur. Nous avons entraîné des modèles avec différents nombres de paramètres, sur jusqu'à 1 trillion de tokens. TiKMiX-D surpasse les performances des méthodes de pointe comme REGMIX tout en utilisant seulement 20 % des ressources computationnelles. TiKMiX-M conduit à un gain de performance moyen de 2 % sur 9 benchmarks en aval. Nos expériences révèlent que les préférences de données d'un modèle évoluent avec la progression de l'entraînement et l'échelle, et nous démontrons qu'ajuster dynamiquement le mélange de données en fonction de l'Influence de Groupe, une mesure directe de ces préférences, améliore significativement les performances en atténuant la sous-digestion des données observée avec des ratios statiques.
English
The data mixture used in the pre-training of a language model is a
cornerstone of its final performance. However, a static mixing strategy is
suboptimal, as the model's learning preferences for various data domains shift
dynamically throughout training. Crucially, observing these evolving
preferences in a computationally efficient manner remains a significant
challenge. To address this, we propose TiKMiX, a method that dynamically
adjusts the data mixture according to the model's evolving preferences. TiKMiX
introduces Group Influence, an efficient metric for evaluating the impact of
data domains on the model. This metric enables the formulation of the data
mixing problem as a search for an optimal, influence-maximizing distribution.
We solve this via two approaches: TiKMiX-D for direct optimization, and
TiKMiX-M, which uses a regression model to predict a superior mixture. We
trained models with different numbers of parameters, on up to 1 trillion
tokens. TiKMiX-D exceeds the performance of state-of-the-art methods like
REGMIX while using just 20% of the computational resources. TiKMiX-M leads to
an average performance gain of 2% across 9 downstream benchmarks. Our
experiments reveal that a model's data preferences evolve with training
progress and scale, and we demonstrate that dynamically adjusting the data
mixture based on Group Influence, a direct measure of these preferences,
significantly improves performance by mitigating the underdigestion of data
seen with static ratios.