Eficacia de los Datos para el Entrenamiento de Modelos de Lenguaje
Data Efficacy for Language Model Training
June 26, 2025
Autores: Yalun Dai, Yangyu Huang, Xin Zhang, Wenshan Wu, Chong Li, Wenhui Lu, Shijie Cao, Li Dong, Scarlett Li
cs.AI
Resumen
Los datos son fundamentales para el entrenamiento de los modelos de lenguaje (LM). Investigaciones recientes se han dedicado a la eficiencia de los datos, cuyo objetivo es maximizar el rendimiento seleccionando un subconjunto mínimo u óptimo de datos de entrenamiento. Técnicas como el filtrado, muestreo y selección de datos desempeñan un papel crucial en este ámbito. Para complementarlo, definimos la Eficacia de los Datos, que se centra en maximizar el rendimiento optimizando la organización de los datos de entrenamiento y sigue siendo un área relativamente poco explorada. Este trabajo introduce un paradigma general, DELT, para considerar la eficacia de los datos en el entrenamiento de LM, destacando la importancia de la organización de los datos de entrenamiento. DELT consta de tres componentes: Puntuación de Datos, Selección de Datos y Ordenación de Datos. Entre estos componentes, diseñamos la Puntuación de Aprendibilidad-Calidad (LQS), como una nueva instancia de Puntuación de Datos, que considera tanto la aprendibilidad como la calidad de cada muestra de datos desde la perspectiva de la consistencia del gradiente. También ideamos la Ordenación Plegable (FO), como una novedosa instancia de Ordenación de Datos, que aborda problemas como el olvido del modelo y el sesgo en la distribución de los datos. Experimentos exhaustivos validan la eficacia de los datos en el entrenamiento de LM, demostrando lo siguiente: En primer lugar, diversas instancias del propuesto DELT mejoran el rendimiento de los LM en distintos grados sin aumentar la escala de datos ni el tamaño del modelo. En segundo lugar, entre estas instancias, la combinación de nuestra propuesta LQS para la puntuación de datos y Folding para la ordenación de datos logra la mejora más significativa. Por último, la eficacia de los datos puede lograrse junto con la eficiencia de los datos aplicando la selección de datos. Por lo tanto, creemos que la eficacia de los datos es un área fundamental prometedora en el entrenamiento de LM.
English
Data is fundamental to the training of language models (LM). Recent research
has been dedicated to data efficiency, which aims to maximize performance by
selecting a minimal or optimal subset of training data. Techniques such as data
filtering, sampling, and selection play a crucial role in this area. To
complement it, we define Data Efficacy, which focuses on maximizing performance
by optimizing the organization of training data and remains relatively
underexplored. This work introduces a general paradigm, DELT, for considering
data efficacy in LM training, which highlights the significance of training
data organization. DELT comprises three components: Data Scoring, Data
Selection, and Data Ordering. Among these components, we design
Learnability-Quality Scoring (LQS), as a new instance of Data Scoring, which
considers both the learnability and quality of each data sample from the
gradient consistency perspective. We also devise Folding Ordering (FO), as a
novel instance of Data Ordering, which addresses issues such as model
forgetting and data distribution bias. Comprehensive experiments validate the
data efficacy in LM training, which demonstrates the following: Firstly,
various instances of the proposed DELT enhance LM performance to varying
degrees without increasing the data scale and model size. Secondly, among these
instances, the combination of our proposed LQS for data scoring and Folding for
data ordering achieves the most significant improvement. Lastly, data efficacy
can be achieved together with data efficiency by applying data selection.
Therefore, we believe that data efficacy is a promising foundational area in LM
training.