TiKMiX: Incorporando a Influência de Dados em Misturas Dinâmicas para Pré-treinamento de Modelos de Linguagem

Resumo

A mistura de dados utilizada no pré-treinamento de um modelo de linguagem é um pilar fundamental para seu desempenho final. No entanto, uma estratégia de mistura estática é subótima, uma vez que as preferências de aprendizado do modelo para diversos domínios de dados mudam dinamicamente ao longo do treinamento. Crucialmente, observar essas preferências em evolução de forma computacionalmente eficiente permanece um desafio significativo. Para abordar isso, propomos o TiKMiX, um método que ajusta dinamicamente a mistura de dados de acordo com as preferências em evolução do modelo. O TiKMiX introduz o conceito de Influência de Grupo, uma métrica eficiente para avaliar o impacto dos domínios de dados no modelo. Essa métrica permite formular o problema de mistura de dados como uma busca por uma distribuição ótima que maximize a influência. Resolvemos isso por meio de duas abordagens: o TiKMiX-D para otimização direta e o TiKMiX-M, que utiliza um modelo de regressão para prever uma mistura superior. Treinamos modelos com diferentes números de parâmetros, em até 1 trilhão de tokens. O TiKMiX-D supera o desempenho de métodos state-of-the-art como o REGMIX, utilizando apenas 20% dos recursos computacionais. O TiKMiX-M resulta em um ganho médio de desempenho de 2% em 9 benchmarks de tarefas downstream. Nossos experimentos revelam que as preferências de dados de um modelo evoluem com o progresso do treinamento e a escala, e demonstramos que ajustar dinamicamente a mistura de dados com base na Influência de Grupo, uma medida direta dessas preferências, melhora significativamente o desempenho ao mitigar a subdigestão de dados observada com proporções estáticas.

English

The data mixture used in the pre-training of a language model is a cornerstone of its final performance. However, a static mixing strategy is suboptimal, as the model's learning preferences for various data domains shift dynamically throughout training. Crucially, observing these evolving preferences in a computationally efficient manner remains a significant challenge. To address this, we propose TiKMiX, a method that dynamically adjusts the data mixture according to the model's evolving preferences. TiKMiX introduces Group Influence, an efficient metric for evaluating the impact of data domains on the model. This metric enables the formulation of the data mixing problem as a search for an optimal, influence-maximizing distribution. We solve this via two approaches: TiKMiX-D for direct optimization, and TiKMiX-M, which uses a regression model to predict a superior mixture. We trained models with different numbers of parameters, on up to 1 trillion tokens. TiKMiX-D exceeds the performance of state-of-the-art methods like REGMIX while using just 20% of the computational resources. TiKMiX-M leads to an average performance gain of 2% across 9 downstream benchmarks. Our experiments reveal that a model's data preferences evolve with training progress and scale, and we demonstrate that dynamically adjusting the data mixture based on Group Influence, a direct measure of these preferences, significantly improves performance by mitigating the underdigestion of data seen with static ratios.

TiKMiX: Incorporando a Influência de Dados em Misturas Dinâmicas para Pré-treinamento de Modelos de Linguagem

TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training

Resumo

Support