Au-delà de l'échelle : le coefficient de diversité comme métrique de qualité des données Démontre que les modèles de langage sont pré-entraînés sur des données formellement diversifiées

Résumé

Les tendances actuelles pour pré-entraîner des modèles de langage de grande taille (LLMs) se concentrent principalement sur l'augmentation de la taille des modèles et des jeux de données. Cependant, la qualité des données de pré-entraînement est un facteur important pour entraîner des LLMs puissants, bien que ce concept reste flou et n'ait pas été pleinement caractérisé. Par conséquent, nous utilisons le coefficient de diversité Task2Vec, récemment proposé, pour ancrer et comprendre les aspects formels de la qualité des données, afin d'aller au-delà de la simple échelle. Plus précisément, nous mesurons le coefficient de diversité des jeux de données de pré-entraînement disponibles publiquement pour démontrer que leur diversité formelle est élevée par rapport aux bornes théoriques inférieures et supérieures. De plus, pour renforcer la confiance dans le coefficient de diversité, nous menons des expériences d'interprétabilité et constatons que le coefficient correspond aux propriétés intuitives de la diversité, par exemple, il augmente à mesure que le nombre de concepts latents s'accroît. Nous concluons que le coefficient de diversité est fiable, montrons qu'il est élevé pour les jeux de données LLM disponibles publiquement, et conjecturons qu'il peut être utilisé pour construire des jeux de données diversifiés et utiles pour les LLMs.

English

Current trends to pre-train capable Large Language Models (LLMs) mostly focus on scaling of model and dataset size. However, the quality of pre-training data is an important factor for training powerful LLMs, yet it is a nebulous concept that has not been fully characterized. Therefore, we use the recently proposed Task2Vec diversity coefficient to ground and understand formal aspects of data quality, to go beyond scale alone. Specifically, we measure the diversity coefficient of publicly available pre-training datasets to demonstrate that their formal diversity is high when compared to theoretical lower and upper bounds. In addition, to build confidence in the diversity coefficient, we conduct interpretability experiments and find that the coefficient aligns with intuitive properties of diversity, e.g., it increases as the number of latent concepts increases. We conclude the diversity coefficient is reliable, show it's high for publicly available LLM datasets, and conjecture it can be used to build useful diverse datasets for LLMs.

Au-delà de l'échelle : le coefficient de diversité comme métrique de qualité des données Démontre que les modèles de langage sont pré-entraînés sur des données formellement diversifiées

Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data

Résumé

Support