パープレキシティに困惑:小型リファレンスモデルを用いたパープレキシティベースのデータプルーニング
Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models
May 30, 2024
著者: Zachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt, Mansheej Paul
cs.AI
要旨
本研究では、小規模な言語モデルが大規模テキストデータセットの高品質なサブセットを決定し、より大規模な言語モデルの性能を向上させることが可能かどうかを調査します。既存の研究では、大規模モデルのパープレキシティに基づくプルーニングが高品質なデータを生み出すことが示されていますが、本研究では、小規模モデルをパープレキシティベースのプルーニングに使用できるかどうか、およびプルーニングがデータのドメイン構成にどのように影響されるかを調査します。複数のデータセット構成において、事前学習データのパープレキシティベースのプルーニングが下流タスクの性能を大幅に向上させることが実証されました:1億2500万パラメータのモデルで計算されたパープレキシティに基づくプルーニングにより、30億パラメータのモデルの下流タスクにおける平均性能が最大2.04向上し、同等のベースライン性能に到達するための事前学習ステップが最大1.45倍削減されました。さらに、このようなパープレキシティベースのデータプルーニングは、過学習状態やデータ制約下においても下流タスクの性能向上をもたらすことが示されました。
English
In this work, we investigate whether small language models can determine
high-quality subsets of large-scale text datasets that improve the performance
of larger language models. While existing work has shown that pruning based on
the perplexity of a larger model can yield high-quality data, we investigate
whether smaller models can be used for perplexity-based pruning and how pruning
is affected by the domain composition of the data being pruned. We demonstrate
that for multiple dataset compositions, perplexity-based pruning of pretraining
data can significantly improve downstream task performance: pruning
based on perplexities computed with a 125 million parameter model improves the
average performance on downstream tasks of a 3 billion parameter model by up to
2.04 and achieves up to a 1.45times reduction in pretraining steps to reach
commensurate baseline performance. Furthermore, we demonstrate that such
perplexity-based data pruning also yields downstream performance gains in the
over-trained and data-constrained regimes.Summary
AI-Generated Summary