Data-effectiviteit voor Taalmodeltraining
Data Efficacy for Language Model Training
June 26, 2025
Auteurs: Yalun Dai, Yangyu Huang, Xin Zhang, Wenshan Wu, Chong Li, Wenhui Lu, Shijie Cao, Li Dong, Scarlett Li
cs.AI
Samenvatting
Data is essentieel voor het trainen van taalmodellen (LM). Recent onderzoek is gericht op data-efficiëntie, wat streeft naar het maximaliseren van prestaties door het selecteren van een minimale of optimale subset van trainingsdata. Technieken zoals datafiltering, sampling en selectie spelen hierbij een cruciale rol. Om dit aan te vullen, definiëren we Data Effectiviteit, die zich richt op het maximaliseren van prestaties door het optimaliseren van de organisatie van trainingsdata en relatief onderbelicht blijft. Dit werk introduceert een algemeen paradigma, DELT, voor het overwegen van data-effectiviteit bij het trainen van LM, wat het belang van de organisatie van trainingsdata benadrukt. DELT bestaat uit drie componenten: Data Scoring, Data Selectie en Data Ordening. Onder deze componenten ontwerpen we Learnability-Quality Scoring (LQS), als een nieuw voorbeeld van Data Scoring, dat zowel de leerbaarheid als de kwaliteit van elk gegevensvoorbeeld overweegt vanuit het perspectief van gradiëntconsistentie. We ontwikkelen ook Folding Ordering (FO), als een nieuw voorbeeld van Data Ordening, dat problemen zoals modelvergetelheid en datadistributiebias aanpakt. Uitgebreide experimenten valideren de data-effectiviteit bij het trainen van LM, wat het volgende aantoont: Ten eerste verbeteren verschillende instanties van het voorgestelde DELT de LM-prestaties in verschillende mate zonder de dataschaal en modelgrootte te vergroten. Ten tweede bereikt de combinatie van onze voorgestelde LQS voor data scoring en Folding voor data ordening de meest significante verbetering onder deze instanties. Tot slot kan data-effectiviteit samen met data-efficiëntie worden bereikt door het toepassen van data selectie. Daarom geloven we dat data-effectiviteit een veelbelovend fundamenteel gebied is in het trainen van LM.
English
Data is fundamental to the training of language models (LM). Recent research
has been dedicated to data efficiency, which aims to maximize performance by
selecting a minimal or optimal subset of training data. Techniques such as data
filtering, sampling, and selection play a crucial role in this area. To
complement it, we define Data Efficacy, which focuses on maximizing performance
by optimizing the organization of training data and remains relatively
underexplored. This work introduces a general paradigm, DELT, for considering
data efficacy in LM training, which highlights the significance of training
data organization. DELT comprises three components: Data Scoring, Data
Selection, and Data Ordering. Among these components, we design
Learnability-Quality Scoring (LQS), as a new instance of Data Scoring, which
considers both the learnability and quality of each data sample from the
gradient consistency perspective. We also devise Folding Ordering (FO), as a
novel instance of Data Ordering, which addresses issues such as model
forgetting and data distribution bias. Comprehensive experiments validate the
data efficacy in LM training, which demonstrates the following: Firstly,
various instances of the proposed DELT enhance LM performance to varying
degrees without increasing the data scale and model size. Secondly, among these
instances, the combination of our proposed LQS for data scoring and Folding for
data ordering achieves the most significant improvement. Lastly, data efficacy
can be achieved together with data efficiency by applying data selection.
Therefore, we believe that data efficacy is a promising foundational area in LM
training.