Perplexity의 혼란: 소형 참조 모델을 활용한 Perplexity 기반 데이터 프루닝
Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models
May 30, 2024
저자: Zachary Ankner, Cody Blakeney, Kartik Sreenivasan, Max Marion, Matthew L. Leavitt, Mansheej Paul
cs.AI
초록
본 연구에서는 소규모 언어 모델이 대규모 텍스트 데이터셋의 고품질 부분집합을 결정하여 더 큰 언어 모델의 성능을 향상시킬 수 있는지 조사합니다. 기존 연구에서는 더 큰 모델의 복잡도(perplexity)를 기반으로 한 데이터 정제(pruning)가 고품질 데이터를 산출할 수 있음을 보여주었지만, 본 연구에서는 소규모 모델을 복잡도 기반 정제에 사용할 수 있는지, 그리고 정제가 데이터의 도메인 구성에 어떻게 영향을 받는지 탐구합니다. 우리는 여러 데이터셋 구성에 대해, 사전 학습 데이터의 복잡도 기반 정제가 다운스트림 작업 성능을 크게 향상시킬 수 있음을 입증합니다: 1억 2,500만 개의 파라미터를 가진 모델로 계산된 복잡도를 기반으로 정제하면, 30억 개의 파라미터를 가진 모델의 다운스트림 작업 평균 성능이 최대 2.04까지 향상되며, 동등한 기준 성능에 도달하기 위한 사전 학습 단계를 최대 1.45배까지 줄일 수 있습니다. 또한, 이러한 복잡도 기반 데이터 정제가 과도하게 학습된(over-trained) 및 데이터가 제한된(data-constrained) 환경에서도 다운스트림 성능 향상을 가져옴을 보여줍니다.
English
In this work, we investigate whether small language models can determine
high-quality subsets of large-scale text datasets that improve the performance
of larger language models. While existing work has shown that pruning based on
the perplexity of a larger model can yield high-quality data, we investigate
whether smaller models can be used for perplexity-based pruning and how pruning
is affected by the domain composition of the data being pruned. We demonstrate
that for multiple dataset compositions, perplexity-based pruning of pretraining
data can significantly improve downstream task performance: pruning
based on perplexities computed with a 125 million parameter model improves the
average performance on downstream tasks of a 3 billion parameter model by up to
2.04 and achieves up to a 1.45times reduction in pretraining steps to reach
commensurate baseline performance. Furthermore, we demonstrate that such
perplexity-based data pruning also yields downstream performance gains in the
over-trained and data-constrained regimes.Summary
AI-Generated Summary