ChatPaper.aiChatPaper

Efficacia dei Dati per l'Addestramento dei Modelli Linguistici

Data Efficacy for Language Model Training

June 26, 2025
Autori: Yalun Dai, Yangyu Huang, Xin Zhang, Wenshan Wu, Chong Li, Wenhui Lu, Shijie Cao, Li Dong, Scarlett Li
cs.AI

Abstract

I dati sono fondamentali per l'addestramento dei modelli linguistici (LM). Ricerche recenti si sono dedicate all'efficienza dei dati, che mira a massimizzare le prestazioni selezionando un sottoinsieme minimo o ottimale di dati di addestramento. Tecniche come il filtraggio, il campionamento e la selezione dei dati svolgono un ruolo cruciale in questo ambito. Per completare tale approccio, definiamo l'Efficacia dei Dati, che si concentra sulla massimizzazione delle prestazioni ottimizzando l'organizzazione dei dati di addestramento e rimane relativamente poco esplorata. Questo lavoro introduce un paradigma generale, DELT, per considerare l'efficacia dei dati nell'addestramento dei LM, evidenziando l'importanza dell'organizzazione dei dati di addestramento. DELT comprende tre componenti: Valutazione dei Dati, Selezione dei Dati e Ordinamento dei Dati. Tra queste componenti, progettiamo il Punteggio di Apprendibilità-Qualità (LQS), come una nuova istanza di Valutazione dei Dati, che considera sia l'apprendibilità che la qualità di ciascun campione di dati dalla prospettiva della coerenza del gradiente. Proponiamo inoltre l'Ordinamento a Piega (FO), come una nuova istanza di Ordinamento dei Dati, che affronta problemi come la dimenticanza del modello e il bias nella distribuzione dei dati. Esperimenti completi convalidano l'efficacia dei dati nell'addestramento dei LM, dimostrando quanto segue: in primo luogo, varie istanze del DELT proposto migliorano le prestazioni dei LM in misura variabile senza aumentare la scala dei dati e le dimensioni del modello. In secondo luogo, tra queste istanze, la combinazione del nostro LQS per la valutazione dei dati e del Folding per l'ordinamento dei dati ottiene il miglioramento più significativo. Infine, l'efficacia dei dati può essere raggiunta insieme all'efficienza dei dati applicando la selezione dei dati. Pertanto, riteniamo che l'efficacia dei dati sia un'area promettente e fondamentale nell'addestramento dei LM.
English
Data is fundamental to the training of language models (LM). Recent research has been dedicated to data efficiency, which aims to maximize performance by selecting a minimal or optimal subset of training data. Techniques such as data filtering, sampling, and selection play a crucial role in this area. To complement it, we define Data Efficacy, which focuses on maximizing performance by optimizing the organization of training data and remains relatively underexplored. This work introduces a general paradigm, DELT, for considering data efficacy in LM training, which highlights the significance of training data organization. DELT comprises three components: Data Scoring, Data Selection, and Data Ordering. Among these components, we design Learnability-Quality Scoring (LQS), as a new instance of Data Scoring, which considers both the learnability and quality of each data sample from the gradient consistency perspective. We also devise Folding Ordering (FO), as a novel instance of Data Ordering, which addresses issues such as model forgetting and data distribution bias. Comprehensive experiments validate the data efficacy in LM training, which demonstrates the following: Firstly, various instances of the proposed DELT enhance LM performance to varying degrees without increasing the data scale and model size. Secondly, among these instances, the combination of our proposed LQS for data scoring and Folding for data ordering achieves the most significant improvement. Lastly, data efficacy can be achieved together with data efficiency by applying data selection. Therefore, we believe that data efficacy is a promising foundational area in LM training.
PDF101July 2, 2025