언어 모델 학습을 위한 데이터 효용성
Data Efficacy for Language Model Training
June 26, 2025
저자: Yalun Dai, Yangyu Huang, Xin Zhang, Wenshan Wu, Chong Li, Wenhui Lu, Shijie Cao, Li Dong, Scarlett Li
cs.AI
초록
데이터는 언어 모델(LM) 훈련의 근간이 됩니다. 최근 연구는 데이터 효율성에 초점을 맞추어, 최소 또는 최적의 훈련 데이터 하위 집합을 선택함으로써 성능을 극대화하는 것을 목표로 하고 있습니다. 데이터 필터링, 샘플링, 선택 등의 기법이 이 분야에서 중요한 역할을 합니다. 이를 보완하기 위해, 우리는 데이터 조직화를 최적화하여 성능을 극대화하는 데 초점을 맞춘 데이터 효능(Data Efficacy)을 정의하며, 이는 상대적으로 덜 탐구된 영역입니다. 본 연구는 LM 훈련에서 데이터 효능을 고려하기 위한 일반적인 패러다임인 DELT를 소개하며, 이는 훈련 데이터 조직화의 중요성을 강조합니다. DELT는 데이터 스코어링(Data Scoring), 데이터 선택(Data Selection), 데이터 순서화(Data Ordering) 세 가지 구성 요소로 이루어져 있습니다. 이 중에서 우리는 데이터 스코어링의 새로운 사례로서 학습 가능성과 품질을 그래디언트 일관성 관점에서 고려하는 학습 가능성-품질 스코어링(Learnability-Quality Scoring, LQS)을 설계했습니다. 또한, 데이터 순서화의 새로운 사례로서 모델 망각 및 데이터 분포 편향과 같은 문제를 해결하는 폴딩 순서화(Folding Ordering, FO)를 고안했습니다. 포괄적인 실험을 통해 LM 훈련에서의 데이터 효능이 검증되었으며, 이는 다음과 같은 결과를 보여줍니다: 첫째, 제안된 DELT의 다양한 사례들은 데이터 규모와 모델 크기를 증가시키지 않으면서도 LM 성능을 다양한 정도로 향상시킵니다. 둘째, 이러한 사례들 중에서 데이터 스코어링을 위한 LQS와 데이터 순서화를 위한 폴딩의 조합이 가장 큰 성능 향상을 달성했습니다. 마지막으로, 데이터 선택을 적용함으로써 데이터 효능과 데이터 효율성을 동시에 달성할 수 있습니다. 따라서, 우리는 데이터 효능이 LM 훈련에서 유망한 기초 영역이라고 믿습니다.
English
Data is fundamental to the training of language models (LM). Recent research
has been dedicated to data efficiency, which aims to maximize performance by
selecting a minimal or optimal subset of training data. Techniques such as data
filtering, sampling, and selection play a crucial role in this area. To
complement it, we define Data Efficacy, which focuses on maximizing performance
by optimizing the organization of training data and remains relatively
underexplored. This work introduces a general paradigm, DELT, for considering
data efficacy in LM training, which highlights the significance of training
data organization. DELT comprises three components: Data Scoring, Data
Selection, and Data Ordering. Among these components, we design
Learnability-Quality Scoring (LQS), as a new instance of Data Scoring, which
considers both the learnability and quality of each data sample from the
gradient consistency perspective. We also devise Folding Ordering (FO), as a
novel instance of Data Ordering, which addresses issues such as model
forgetting and data distribution bias. Comprehensive experiments validate the
data efficacy in LM training, which demonstrates the following: Firstly,
various instances of the proposed DELT enhance LM performance to varying
degrees without increasing the data scale and model size. Secondly, among these
instances, the combination of our proposed LQS for data scoring and Folding for
data ordering achieves the most significant improvement. Lastly, data efficacy
can be achieved together with data efficiency by applying data selection.
Therefore, we believe that data efficacy is a promising foundational area in LM
training.