ChatPaper.aiChatPaper

Эффективность данных для обучения языковых моделей

Data Efficacy for Language Model Training

June 26, 2025
Авторы: Yalun Dai, Yangyu Huang, Xin Zhang, Wenshan Wu, Chong Li, Wenhui Lu, Shijie Cao, Li Dong, Scarlett Li
cs.AI

Аннотация

Данные являются основой для обучения языковых моделей (LM). Современные исследования посвящены повышению эффективности данных, что направлено на максимизацию производительности путем выбора минимального или оптимального подмножества обучающих данных. Методы, такие как фильтрация данных, выборка и отбор, играют ключевую роль в этой области. В дополнение к этому мы определяем Эффективность данных (Data Efficacy), которая фокусируется на максимизации производительности за счет оптимизации организации обучающих данных и остается относительно малоизученной. В данной работе представлена общая парадигма DELT для учета эффективности данных при обучении LM, которая подчеркивает важность организации обучающих данных. DELT состоит из трех компонентов: Оценка данных, Отбор данных и Упорядочивание данных. Среди этих компонентов мы разработали Оценку обучаемости и качества (Learnability-Quality Scoring, LQS) как новый пример Оценки данных, которая учитывает как обучаемость, так и качество каждого образца данных с точки зрения согласованности градиентов. Мы также предложили Упорядочивание с перекрытием (Folding Ordering, FO) как новый пример Упорядочивания данных, который решает такие проблемы, как забывание модели и смещение распределения данных. Комплексные эксперименты подтверждают эффективность данных при обучении LM, что демонстрирует следующее: Во-первых, различные реализации предложенной парадигмы DELT в разной степени улучшают производительность LM без увеличения объема данных и размера модели. Во-вторых, среди этих реализаций комбинация предложенной нами LQS для оценки данных и Folding для упорядочивания данных достигает наиболее значительного улучшения. Наконец, эффективность данных может быть достигнута вместе с эффективностью использования данных путем применения отбора данных. Таким образом, мы считаем, что эффективность данных является перспективным фундаментальным направлением в обучении LM.
English
Data is fundamental to the training of language models (LM). Recent research has been dedicated to data efficiency, which aims to maximize performance by selecting a minimal or optimal subset of training data. Techniques such as data filtering, sampling, and selection play a crucial role in this area. To complement it, we define Data Efficacy, which focuses on maximizing performance by optimizing the organization of training data and remains relatively underexplored. This work introduces a general paradigm, DELT, for considering data efficacy in LM training, which highlights the significance of training data organization. DELT comprises three components: Data Scoring, Data Selection, and Data Ordering. Among these components, we design Learnability-Quality Scoring (LQS), as a new instance of Data Scoring, which considers both the learnability and quality of each data sample from the gradient consistency perspective. We also devise Folding Ordering (FO), as a novel instance of Data Ordering, which addresses issues such as model forgetting and data distribution bias. Comprehensive experiments validate the data efficacy in LM training, which demonstrates the following: Firstly, various instances of the proposed DELT enhance LM performance to varying degrees without increasing the data scale and model size. Secondly, among these instances, the combination of our proposed LQS for data scoring and Folding for data ordering achieves the most significant improvement. Lastly, data efficacy can be achieved together with data efficiency by applying data selection. Therefore, we believe that data efficacy is a promising foundational area in LM training.
PDF71July 2, 2025