TiKMiX : Intégrer l'influence des données dans un mélange dynamique pour le pré-entraînement de modèles de langage

papers.abstract

Le mélange de données utilisé dans le pré-entraînement d'un modèle de langage est un élément fondamental de ses performances finales. Cependant, une stratégie de mélange statique est sous-optimale, car les préférences d'apprentissage du modèle pour différents domaines de données évoluent dynamiquement au cours de l'entraînement. De manière cruciale, observer ces préférences changeantes de manière efficace sur le plan computationnel reste un défi majeur. Pour y remédier, nous proposons TiKMiX, une méthode qui ajuste dynamiquement le mélange de données en fonction des préférences évolutives du modèle. TiKMiX introduit l'Influence de Groupe, une métrique efficace pour évaluer l'impact des domaines de données sur le modèle. Cette métrique permet de formuler le problème de mélange de données comme une recherche d'une distribution optimale maximisant l'influence. Nous résolvons ce problème via deux approches : TiKMiX-D pour une optimisation directe, et TiKMiX-M, qui utilise un modèle de régression pour prédire un mélange supérieur. Nous avons entraîné des modèles avec différents nombres de paramètres, sur jusqu'à 1 trillion de tokens. TiKMiX-D surpasse les performances des méthodes de pointe comme REGMIX tout en utilisant seulement 20 % des ressources computationnelles. TiKMiX-M conduit à un gain de performance moyen de 2 % sur 9 benchmarks en aval. Nos expériences révèlent que les préférences de données d'un modèle évoluent avec la progression de l'entraînement et l'échelle, et nous démontrons qu'ajuster dynamiquement le mélange de données en fonction de l'Influence de Groupe, une mesure directe de ces préférences, améliore significativement les performances en atténuant la sous-digestion des données observée avec des ratios statiques.

English

The data mixture used in the pre-training of a language model is a cornerstone of its final performance. However, a static mixing strategy is suboptimal, as the model's learning preferences for various data domains shift dynamically throughout training. Crucially, observing these evolving preferences in a computationally efficient manner remains a significant challenge. To address this, we propose TiKMiX, a method that dynamically adjusts the data mixture according to the model's evolving preferences. TiKMiX introduces Group Influence, an efficient metric for evaluating the impact of data domains on the model. This metric enables the formulation of the data mixing problem as a search for an optimal, influence-maximizing distribution. We solve this via two approaches: TiKMiX-D for direct optimization, and TiKMiX-M, which uses a regression model to predict a superior mixture. We trained models with different numbers of parameters, on up to 1 trillion tokens. TiKMiX-D exceeds the performance of state-of-the-art methods like REGMIX while using just 20% of the computational resources. TiKMiX-M leads to an average performance gain of 2% across 9 downstream benchmarks. Our experiments reveal that a model's data preferences evolve with training progress and scale, and we demonstrate that dynamically adjusting the data mixture based on Group Influence, a direct measure of these preferences, significantly improves performance by mitigating the underdigestion of data seen with static ratios.

TiKMiX : Intégrer l'influence des données dans un mélange dynamique pour le pré-entraînement de modèles de langage

TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training

papers.abstract

Support