Au-delà de l'échelle : le coefficient de diversité comme métrique de qualité des données Démontre que les modèles de langage sont pré-entraînés sur des données formellement diversifiées
Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data
June 24, 2023
Auteurs: Alycia Lee, Brando Miranda, Sanmi Koyejo
cs.AI
Résumé
Les tendances actuelles pour pré-entraîner des modèles de langage de grande taille (LLMs) se concentrent principalement sur l'augmentation de la taille des modèles et des jeux de données. Cependant, la qualité des données de pré-entraînement est un facteur important pour entraîner des LLMs puissants, bien que ce concept reste flou et n'ait pas été pleinement caractérisé. Par conséquent, nous utilisons le coefficient de diversité Task2Vec, récemment proposé, pour ancrer et comprendre les aspects formels de la qualité des données, afin d'aller au-delà de la simple échelle. Plus précisément, nous mesurons le coefficient de diversité des jeux de données de pré-entraînement disponibles publiquement pour démontrer que leur diversité formelle est élevée par rapport aux bornes théoriques inférieures et supérieures. De plus, pour renforcer la confiance dans le coefficient de diversité, nous menons des expériences d'interprétabilité et constatons que le coefficient correspond aux propriétés intuitives de la diversité, par exemple, il augmente à mesure que le nombre de concepts latents s'accroît. Nous concluons que le coefficient de diversité est fiable, montrons qu'il est élevé pour les jeux de données LLM disponibles publiquement, et conjecturons qu'il peut être utilisé pour construire des jeux de données diversifiés et utiles pour les LLMs.
English
Current trends to pre-train capable Large Language Models (LLMs) mostly focus
on scaling of model and dataset size. However, the quality of pre-training data
is an important factor for training powerful LLMs, yet it is a nebulous concept
that has not been fully characterized. Therefore, we use the recently proposed
Task2Vec diversity coefficient to ground and understand formal aspects of data
quality, to go beyond scale alone. Specifically, we measure the diversity
coefficient of publicly available pre-training datasets to demonstrate that
their formal diversity is high when compared to theoretical lower and upper
bounds. In addition, to build confidence in the diversity coefficient, we
conduct interpretability experiments and find that the coefficient aligns with
intuitive properties of diversity, e.g., it increases as the number of latent
concepts increases. We conclude the diversity coefficient is reliable, show
it's high for publicly available LLM datasets, and conjecture it can be used to
build useful diverse datasets for LLMs.