Eficácia dos Dados para o Treinamento de Modelos de Linguagem
Data Efficacy for Language Model Training
June 26, 2025
Autores: Yalun Dai, Yangyu Huang, Xin Zhang, Wenshan Wu, Chong Li, Wenhui Lu, Shijie Cao, Li Dong, Scarlett Li
cs.AI
Resumo
Os dados são fundamentais para o treinamento de modelos de linguagem (LM). Pesquisas recentes têm se dedicado à eficiência de dados, que visa maximizar o desempenho ao selecionar um subconjunto mínimo ou ideal de dados de treinamento. Técnicas como filtragem, amostragem e seleção de dados desempenham um papel crucial nessa área. Para complementar, definimos Eficácia dos Dados, que se concentra em maximizar o desempenho ao otimizar a organização dos dados de treinamento e permanece relativamente pouco explorada. Este trabalho introduz um paradigma geral, DELT, para considerar a eficácia dos dados no treinamento de LM, destacando a importância da organização dos dados de treinamento. O DELT compreende três componentes: Pontuação de Dados, Seleção de Dados e Ordenação de Dados. Entre esses componentes, projetamos a Pontuação de Aprendizagem-Qualidade (LQS), como uma nova instância de Pontuação de Dados, que considera tanto a capacidade de aprendizado quanto a qualidade de cada amostra de dados a partir da perspectiva da consistência do gradiente. Também desenvolvemos a Ordenação por Dobramento (FO), como uma nova instância de Ordenação de Dados, que aborda questões como o esquecimento do modelo e o viés na distribuição de dados. Experimentos abrangentes validam a eficácia dos dados no treinamento de LM, demonstrando o seguinte: Em primeiro lugar, várias instâncias do DELT proposto melhoram o desempenho do LM em diferentes graus sem aumentar a escala de dados e o tamanho do modelo. Em segundo lugar, entre essas instâncias, a combinação do LQS proposto para pontuação de dados e o Dobramento para ordenação de dados alcança a melhoria mais significativa. Por fim, a eficácia dos dados pode ser alcançada juntamente com a eficiência de dados ao aplicar a seleção de dados. Portanto, acreditamos que a eficácia dos dados é uma área fundamental promissora no treinamento de LM.
English
Data is fundamental to the training of language models (LM). Recent research
has been dedicated to data efficiency, which aims to maximize performance by
selecting a minimal or optimal subset of training data. Techniques such as data
filtering, sampling, and selection play a crucial role in this area. To
complement it, we define Data Efficacy, which focuses on maximizing performance
by optimizing the organization of training data and remains relatively
underexplored. This work introduces a general paradigm, DELT, for considering
data efficacy in LM training, which highlights the significance of training
data organization. DELT comprises three components: Data Scoring, Data
Selection, and Data Ordering. Among these components, we design
Learnability-Quality Scoring (LQS), as a new instance of Data Scoring, which
considers both the learnability and quality of each data sample from the
gradient consistency perspective. We also devise Folding Ordering (FO), as a
novel instance of Data Ordering, which addresses issues such as model
forgetting and data distribution bias. Comprehensive experiments validate the
data efficacy in LM training, which demonstrates the following: Firstly,
various instances of the proposed DELT enhance LM performance to varying
degrees without increasing the data scale and model size. Secondly, among these
instances, the combination of our proposed LQS for data scoring and Folding for
data ordering achieves the most significant improvement. Lastly, data efficacy
can be achieved together with data efficiency by applying data selection.
Therefore, we believe that data efficacy is a promising foundational area in LM
training.