Oltre la Scala: il Coefficiente di Diversità come Metrica della Qualità dei Dati Dimostra che i Modelli Linguistici sono Pre-addestrati su Dati Formalmente Diversi

Abstract

Le tendenze attuali per il pre-addestramento di modelli linguistici di grandi dimensioni (LLM) capaci si concentrano principalmente sul ridimensionamento delle dimensioni del modello e del dataset. Tuttavia, la qualità dei dati di pre-addestramento è un fattore importante per l'addestramento di LLM potenti, ma rimane un concetto nebuloso che non è stato completamente caratterizzato. Pertanto, utilizziamo il coefficiente di diversità Task2Vec, recentemente proposto, per fondare e comprendere gli aspetti formali della qualità dei dati, andando oltre la semplice scala. In particolare, misuriamo il coefficiente di diversità dei dataset di pre-addestramento disponibili pubblicamente per dimostrare che la loro diversità formale è elevata rispetto ai limiti teorici inferiori e superiori. Inoltre, per rafforzare la fiducia nel coefficiente di diversità, conduciamo esperimenti di interpretabilità e scopriamo che il coefficiente è in linea con le proprietà intuitive della diversità, ad esempio, aumenta all'aumentare del numero di concetti latenti. Concludiamo che il coefficiente di diversità è affidabile, dimostriamo che è elevato per i dataset LLM disponibili pubblicamente e ipotizziamo che possa essere utilizzato per costruire dataset utili e diversificati per i LLM.

English

Current trends to pre-train capable Large Language Models (LLMs) mostly focus on scaling of model and dataset size. However, the quality of pre-training data is an important factor for training powerful LLMs, yet it is a nebulous concept that has not been fully characterized. Therefore, we use the recently proposed Task2Vec diversity coefficient to ground and understand formal aspects of data quality, to go beyond scale alone. Specifically, we measure the diversity coefficient of publicly available pre-training datasets to demonstrate that their formal diversity is high when compared to theoretical lower and upper bounds. In addition, to build confidence in the diversity coefficient, we conduct interpretability experiments and find that the coefficient aligns with intuitive properties of diversity, e.g., it increases as the number of latent concepts increases. We conclude the diversity coefficient is reliable, show it's high for publicly available LLM datasets, and conjecture it can be used to build useful diverse datasets for LLMs.

Oltre la Scala: il Coefficiente di Diversità come Metrica della Qualità dei Dati Dimostra che i Modelli Linguistici sono Pre-addestrati su Dati Formalmente Diversi

Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data

Abstract

Support