Perplexité par la Perplexité : Élagage de Données Basé sur la Perplexité avec de Petits Modèles de Référence

papers.abstract

Dans ce travail, nous étudions si les petits modèles de langage peuvent déterminer des sous-ensembles de haute qualité dans des jeux de données textuelles à grande échelle, améliorant ainsi les performances de modèles de langage plus grands. Bien que des travaux existants aient montré que l'élagage basé sur la perplexité d'un modèle plus grand peut produire des données de haute qualité, nous examinons si des modèles plus petits peuvent être utilisés pour l'élagage basé sur la perplexité et comment l'élagage est influencé par la composition du domaine des données élaguées. Nous démontrons que, pour plusieurs compositions de jeux de données, l'élagage des données de pré-entraînement basé sur la perplexité peut significativement améliorer les performances sur les tâches en aval : l'élagage basé sur les perplexités calculées avec un modèle de 125 millions de paramètres améliore la performance moyenne sur les tâches en aval d'un modèle de 3 milliards de paramètres jusqu'à 2,04 et permet une réduction jusqu'à 1,45 fois du nombre d'étapes de pré-entraînement nécessaires pour atteindre des performances de base équivalentes. De plus, nous montrons qu'un tel élagage de données basé sur la perplexité produit également des gains de performance en aval dans les régimes de surentraînement et de contrainte de données.

English

In this work, we investigate whether small language models can determine high-quality subsets of large-scale text datasets that improve the performance of larger language models. While existing work has shown that pruning based on the perplexity of a larger model can yield high-quality data, we investigate whether smaller models can be used for perplexity-based pruning and how pruning is affected by the domain composition of the data being pruned. We demonstrate that for multiple dataset compositions, perplexity-based pruning of pretraining data can significantly improve downstream task performance: pruning based on perplexities computed with a 125 million parameter model improves the average performance on downstream tasks of a 3 billion parameter model by up to 2.04 and achieves up to a 1.45times reduction in pretraining steps to reach commensurate baseline performance. Furthermore, we demonstrate that such perplexity-based data pruning also yields downstream performance gains in the over-trained and data-constrained regimes.

Perplexité par la Perplexité : Élagage de Données Basé sur la Perplexité avec de Petits Modèles de Référence

Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models

papers.abstract

Support