Más allá de la escala: el coeficiente de diversidad como métrica de calidad de datos Demuestra que los modelos de lenguaje grandes están preentrenados con datos formalmente diversos
Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data
June 24, 2023
Autores: Alycia Lee, Brando Miranda, Sanmi Koyejo
cs.AI
Resumen
Las tendencias actuales para el preentrenamiento de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) capaces se centran principalmente en la escalabilidad del tamaño del modelo y del conjunto de datos. Sin embargo, la calidad de los datos de preentrenamiento es un factor importante para entrenar LLMs potentes, aunque es un concepto nebuloso que no ha sido completamente caracterizado. Por lo tanto, utilizamos el coeficiente de diversidad Task2Vec, propuesto recientemente, para fundamentar y comprender aspectos formales de la calidad de los datos, yendo más allá de la escala por sí sola. Específicamente, medimos el coeficiente de diversidad de conjuntos de datos de preentrenamiento disponibles públicamente para demostrar que su diversidad formal es alta en comparación con los límites teóricos inferiores y superiores. Además, para generar confianza en el coeficiente de diversidad, realizamos experimentos de interpretabilidad y encontramos que el coeficiente se alinea con propiedades intuitivas de la diversidad, por ejemplo, aumenta a medida que crece el número de conceptos latentes. Concluimos que el coeficiente de diversidad es confiable, mostramos que es alto para los conjuntos de datos de LLMs disponibles públicamente, y conjeturamos que puede utilizarse para construir conjuntos de datos diversos y útiles para LLMs.
English
Current trends to pre-train capable Large Language Models (LLMs) mostly focus
on scaling of model and dataset size. However, the quality of pre-training data
is an important factor for training powerful LLMs, yet it is a nebulous concept
that has not been fully characterized. Therefore, we use the recently proposed
Task2Vec diversity coefficient to ground and understand formal aspects of data
quality, to go beyond scale alone. Specifically, we measure the diversity
coefficient of publicly available pre-training datasets to demonstrate that
their formal diversity is high when compared to theoretical lower and upper
bounds. In addition, to build confidence in the diversity coefficient, we
conduct interpretability experiments and find that the coefficient aligns with
intuitive properties of diversity, e.g., it increases as the number of latent
concepts increases. We conclude the diversity coefficient is reliable, show
it's high for publicly available LLM datasets, and conjecture it can be used to
build useful diverse datasets for LLMs.