Perplexité par la Perplexité : Élagage de Données Basé sur la Perplexité avec de Petits Modèles de Référence
Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models
May 30, 2024
Auteurs: Zachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt, Mansheej Paul
cs.AI
Résumé
Dans ce travail, nous étudions si les petits modèles de langage peuvent déterminer des sous-ensembles de haute qualité dans des jeux de données textuelles à grande échelle, améliorant ainsi les performances de modèles de langage plus grands. Bien que des travaux existants aient montré que l'élagage basé sur la perplexité d'un modèle plus grand peut produire des données de haute qualité, nous examinons si des modèles plus petits peuvent être utilisés pour l'élagage basé sur la perplexité et comment l'élagage est influencé par la composition du domaine des données élaguées. Nous démontrons que, pour plusieurs compositions de jeux de données, l'élagage des données de pré-entraînement basé sur la perplexité peut significativement améliorer les performances sur les tâches en aval : l'élagage basé sur les perplexités calculées avec un modèle de 125 millions de paramètres améliore la performance moyenne sur les tâches en aval d'un modèle de 3 milliards de paramètres jusqu'à 2,04 et permet une réduction jusqu'à 1,45 fois du nombre d'étapes de pré-entraînement nécessaires pour atteindre des performances de base équivalentes. De plus, nous montrons qu'un tel élagage de données basé sur la perplexité produit également des gains de performance en aval dans les régimes de surentraînement et de contrainte de données.
English
In this work, we investigate whether small language models can determine
high-quality subsets of large-scale text datasets that improve the performance
of larger language models. While existing work has shown that pruning based on
the perplexity of a larger model can yield high-quality data, we investigate
whether smaller models can be used for perplexity-based pruning and how pruning
is affected by the domain composition of the data being pruned. We demonstrate
that for multiple dataset compositions, perplexity-based pruning of pretraining
data can significantly improve downstream task performance: pruning
based on perplexities computed with a 125 million parameter model improves the
average performance on downstream tasks of a 3 billion parameter model by up to
2.04 and achieves up to a 1.45times reduction in pretraining steps to reach
commensurate baseline performance. Furthermore, we demonstrate that such
perplexity-based data pruning also yields downstream performance gains in the
over-trained and data-constrained regimes.Summary
AI-Generated Summary