Datenwirksamkeit für das Training von Sprachmodellen
Data Efficacy for Language Model Training
June 26, 2025
Autoren: Yalun Dai, Yangyu Huang, Xin Zhang, Wenshan Wu, Chong Li, Wenhui Lu, Shijie Cao, Li Dong, Scarlett Li
cs.AI
Zusammenfassung
Daten sind grundlegend für das Training von Sprachmodellen (LM). Aktuelle Forschung widmet sich der Dateneffizienz, die darauf abzielt, die Leistung durch die Auswahl einer minimalen oder optimalen Teilmenge von Trainingsdaten zu maximieren. Techniken wie Datenfilterung, -sampling und -auswahl spielen in diesem Bereich eine entscheidende Rolle. Zur Ergänzung definieren wir Datenwirksamkeit (Data Efficacy), die sich darauf konzentriert, die Leistung durch die Optimierung der Organisation von Trainingsdaten zu maximieren und bisher relativ wenig erforscht ist. Diese Arbeit stellt ein allgemeines Paradigma, DELT, vor, um die Datenwirksamkeit beim Training von Sprachmodellen zu berücksichtigen, das die Bedeutung der Organisation von Trainingsdaten hervorhebt. DELT besteht aus drei Komponenten: Datenbewertung (Data Scoring), Datenauswahl (Data Selection) und Datenanordnung (Data Ordering). Unter diesen Komponenten entwickeln wir die Lernfähigkeits-Qualitäts-Bewertung (Learnability-Quality Scoring, LQS) als eine neue Instanz der Datenbewertung, die sowohl die Lernfähigkeit als auch die Qualität jedes Datenbeispiels aus der Perspektive der Gradientenkonsistenz berücksichtigt. Wir entwerfen auch die Faltungsanordnung (Folding Ordering, FO) als eine neuartige Instanz der Datenanordnung, die Probleme wie Modellvergessen und Datenverteilungsverzerrung adressiert. Umfassende Experimente validieren die Datenwirksamkeit beim Training von Sprachmodellen, was Folgendes zeigt: Erstens verbessern verschiedene Instanzen des vorgeschlagenen DELT die Leistung von Sprachmodellen in unterschiedlichem Maße, ohne die Datenmenge und Modellgröße zu erhöhen. Zweitens erreicht unter diesen Instanzen die Kombination unserer vorgeschlagenen LQS für die Datenbewertung und Folding für die Datenanordnung die signifikanteste Verbesserung. Schließlich kann die Datenwirksamkeit zusammen mit der Dateneffizienz durch die Anwendung der Datenauswahl erreicht werden. Daher glauben wir, dass die Datenwirksamkeit ein vielversprechendes Grundlagengebiet im Training von Sprachmodellen ist.
English
Data is fundamental to the training of language models (LM). Recent research
has been dedicated to data efficiency, which aims to maximize performance by
selecting a minimal or optimal subset of training data. Techniques such as data
filtering, sampling, and selection play a crucial role in this area. To
complement it, we define Data Efficacy, which focuses on maximizing performance
by optimizing the organization of training data and remains relatively
underexplored. This work introduces a general paradigm, DELT, for considering
data efficacy in LM training, which highlights the significance of training
data organization. DELT comprises three components: Data Scoring, Data
Selection, and Data Ordering. Among these components, we design
Learnability-Quality Scoring (LQS), as a new instance of Data Scoring, which
considers both the learnability and quality of each data sample from the
gradient consistency perspective. We also devise Folding Ordering (FO), as a
novel instance of Data Ordering, which addresses issues such as model
forgetting and data distribution bias. Comprehensive experiments validate the
data efficacy in LM training, which demonstrates the following: Firstly,
various instances of the proposed DELT enhance LM performance to varying
degrees without increasing the data scale and model size. Secondly, among these
instances, the combination of our proposed LQS for data scoring and Folding for
data ordering achieves the most significant improvement. Lastly, data efficacy
can be achieved together with data efficiency by applying data selection.
Therefore, we believe that data efficacy is a promising foundational area in LM
training.