Efficacité des données pour l'entraînement des modèles de langage
Data Efficacy for Language Model Training
June 26, 2025
Auteurs: Yalun Dai, Yangyu Huang, Xin Zhang, Wenshan Wu, Chong Li, Wenhui Lu, Shijie Cao, Li Dong, Scarlett Li
cs.AI
Résumé
Les données sont fondamentales pour l'entraînement des modèles de langage (LM). Des recherches récentes se sont consacrées à l'efficacité des données, qui vise à maximiser les performances en sélectionnant un sous-ensemble minimal ou optimal de données d'entraînement. Des techniques telles que le filtrage, l'échantillonnage et la sélection des données jouent un rôle crucial dans ce domaine. Pour compléter cette approche, nous définissons l'Efficacité des Données, qui se concentre sur la maximisation des performances en optimisant l'organisation des données d'entraînement et reste relativement peu explorée. Ce travail introduit un paradigme général, DELT, pour considérer l'efficacité des données dans l'entraînement des LM, mettant en lumière l'importance de l'organisation des données d'entraînement. DELT comprend trois composantes : l'Évaluation des Données, la Sélection des Données et l'Ordonnancement des Données. Parmi ces composantes, nous concevons l'Évaluation Apprenabilité-Qualité (LQS), comme une nouvelle instance d'Évaluation des Données, qui prend en compte à la fois l'apprenabilité et la qualité de chaque échantillon de données du point de vue de la cohérence des gradients. Nous élaborons également l'Ordonnancement par Pliage (FO), comme une nouvelle instance d'Ordonnancement des Données, qui aborde des problèmes tels que l'oubli du modèle et le biais de distribution des données. Des expériences approfondies valident l'efficacité des données dans l'entraînement des LM, démontrant les points suivants : Premièrement, diverses instances du DELT proposé améliorent les performances des LM à des degrés divers sans augmenter l'échelle des données ni la taille du modèle. Deuxièmement, parmi ces instances, la combinaison de notre LQS proposé pour l'évaluation des données et du Pliage pour l'ordonnancement des données obtient l'amélioration la plus significative. Enfin, l'efficacité des données peut être atteinte conjointement avec l'efficience des données en appliquant la sélection des données. Par conséquent, nous croyons que l'efficacité des données est un domaine fondamental prometteur dans l'entraînement des LM.
English
Data is fundamental to the training of language models (LM). Recent research
has been dedicated to data efficiency, which aims to maximize performance by
selecting a minimal or optimal subset of training data. Techniques such as data
filtering, sampling, and selection play a crucial role in this area. To
complement it, we define Data Efficacy, which focuses on maximizing performance
by optimizing the organization of training data and remains relatively
underexplored. This work introduces a general paradigm, DELT, for considering
data efficacy in LM training, which highlights the significance of training
data organization. DELT comprises three components: Data Scoring, Data
Selection, and Data Ordering. Among these components, we design
Learnability-Quality Scoring (LQS), as a new instance of Data Scoring, which
considers both the learnability and quality of each data sample from the
gradient consistency perspective. We also devise Folding Ordering (FO), as a
novel instance of Data Ordering, which addresses issues such as model
forgetting and data distribution bias. Comprehensive experiments validate the
data efficacy in LM training, which demonstrates the following: Firstly,
various instances of the proposed DELT enhance LM performance to varying
degrees without increasing the data scale and model size. Secondly, among these
instances, the combination of our proposed LQS for data scoring and Folding for
data ordering achieves the most significant improvement. Lastly, data efficacy
can be achieved together with data efficiency by applying data selection.
Therefore, we believe that data efficacy is a promising foundational area in LM
training.