Oltre la Scala: il Coefficiente di Diversità come Metrica della Qualità dei Dati Dimostra che i Modelli Linguistici sono Pre-addestrati su Dati Formalmente Diversi
Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data
June 24, 2023
Autori: Alycia Lee, Brando Miranda, Sanmi Koyejo
cs.AI
Abstract
Le tendenze attuali per il pre-addestramento di modelli linguistici di grandi dimensioni (LLM) capaci si concentrano principalmente sul ridimensionamento delle dimensioni del modello e del dataset. Tuttavia, la qualità dei dati di pre-addestramento è un fattore importante per l'addestramento di LLM potenti, ma rimane un concetto nebuloso che non è stato completamente caratterizzato. Pertanto, utilizziamo il coefficiente di diversità Task2Vec, recentemente proposto, per fondare e comprendere gli aspetti formali della qualità dei dati, andando oltre la semplice scala. In particolare, misuriamo il coefficiente di diversità dei dataset di pre-addestramento disponibili pubblicamente per dimostrare che la loro diversità formale è elevata rispetto ai limiti teorici inferiori e superiori. Inoltre, per rafforzare la fiducia nel coefficiente di diversità, conduciamo esperimenti di interpretabilità e scopriamo che il coefficiente è in linea con le proprietà intuitive della diversità, ad esempio, aumenta all'aumentare del numero di concetti latenti. Concludiamo che il coefficiente di diversità è affidabile, dimostriamo che è elevato per i dataset LLM disponibili pubblicamente e ipotizziamo che possa essere utilizzato per costruire dataset utili e diversificati per i LLM.
English
Current trends to pre-train capable Large Language Models (LLMs) mostly focus
on scaling of model and dataset size. However, the quality of pre-training data
is an important factor for training powerful LLMs, yet it is a nebulous concept
that has not been fully characterized. Therefore, we use the recently proposed
Task2Vec diversity coefficient to ground and understand formal aspects of data
quality, to go beyond scale alone. Specifically, we measure the diversity
coefficient of publicly available pre-training datasets to demonstrate that
their formal diversity is high when compared to theoretical lower and upper
bounds. In addition, to build confidence in the diversity coefficient, we
conduct interpretability experiments and find that the coefficient aligns with
intuitive properties of diversity, e.g., it increases as the number of latent
concepts increases. We conclude the diversity coefficient is reliable, show
it's high for publicly available LLM datasets, and conjecture it can be used to
build useful diverse datasets for LLMs.