ChatPaper.aiChatPaper

TiKMiX: Considerare l'Influenza dei Dati nella Miscela Dinamica per il Pre-addestramento dei Modelli Linguistici

TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training

August 25, 2025
Autori: Yifan Wang, Binbin Liu, Fengze Liu, Yuanfan Guo, Jiyao Deng, Xuecheng Wu, Weidong Zhou, Xiaohuan Zhou, Taifeng Wang
cs.AI

Abstract

La miscela di dati utilizzata nel pre-addestramento di un modello linguistico rappresenta un elemento fondamentale per le sue prestazioni finali. Tuttavia, una strategia di miscelazione statica risulta subottimale, poiché le preferenze di apprendimento del modello per i vari domini di dati cambiano dinamicamente durante l'addestramento. In particolare, osservare queste preferenze in evoluzione in modo computazionalmente efficiente rimane una sfida significativa. Per affrontare questo problema, proponiamo TiKMiX, un metodo che regola dinamicamente la miscela di dati in base alle preferenze in evoluzione del modello. TiKMiX introduce l'Influenza di Gruppo, una metrica efficiente per valutare l'impatto dei domini di dati sul modello. Questa metrica consente di formulare il problema della miscelazione dei dati come una ricerca di una distribuzione ottimale che massimizzi l'influenza. Risolviamo questo problema attraverso due approcci: TiKMiX-D per l'ottimizzazione diretta e TiKMiX-M, che utilizza un modello di regressione per prevedere una miscela superiore. Abbiamo addestrato modelli con diversi numeri di parametri, su fino a 1 trilione di token. TiKMiX-D supera le prestazioni di metodi all'avanguardia come REGMIX utilizzando solo il 20% delle risorse computazionali. TiKMiX-M porta a un miglioramento medio delle prestazioni del 2% su 9 benchmark downstream. I nostri esperimenti rivelano che le preferenze di dati di un modello evolvono con il progresso dell'addestramento e la scala, e dimostriamo che l'aggiustamento dinamico della miscela di dati basato sull'Influenza di Gruppo, una misura diretta di queste preferenze, migliora significativamente le prestazioni mitigando la sottodigestione dei dati osservata con rapporti statici.
English
The data mixture used in the pre-training of a language model is a cornerstone of its final performance. However, a static mixing strategy is suboptimal, as the model's learning preferences for various data domains shift dynamically throughout training. Crucially, observing these evolving preferences in a computationally efficient manner remains a significant challenge. To address this, we propose TiKMiX, a method that dynamically adjusts the data mixture according to the model's evolving preferences. TiKMiX introduces Group Influence, an efficient metric for evaluating the impact of data domains on the model. This metric enables the formulation of the data mixing problem as a search for an optimal, influence-maximizing distribution. We solve this via two approaches: TiKMiX-D for direct optimization, and TiKMiX-M, which uses a regression model to predict a superior mixture. We trained models with different numbers of parameters, on up to 1 trillion tokens. TiKMiX-D exceeds the performance of state-of-the-art methods like REGMIX while using just 20% of the computational resources. TiKMiX-M leads to an average performance gain of 2% across 9 downstream benchmarks. Our experiments reveal that a model's data preferences evolve with training progress and scale, and we demonstrate that dynamically adjusting the data mixture based on Group Influence, a direct measure of these preferences, significantly improves performance by mitigating the underdigestion of data seen with static ratios.
PDF142September 1, 2025