적을수록 더 나은 경우: 대규모 LLM 사전 학습을 위한 데이터 프루닝 연구
When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale
September 8, 2023
저자: Max Marion, Ahmet Üstün, Luiza Pozzobon, Alex Wang, Marzieh Fadaee, Sara Hooker
cs.AI
초록
최근 대량의 텍스트 데이터는 대형 언어 모델(LLM)의 발전에 크게 기여해 왔습니다. 이러한 데이터는 일반적으로 인터넷을 스크랩핑하여 획득되며, 이로 인해 노이즈가 많은 웹 텍스트로 구성된 사전 학습 데이터셋이 생성됩니다. 현재까지 이러한 데이터셋을 더 높은 품질의 부분집합으로 정제하기 위한 노력은 규칙 기반 필터로 인코딩된 수작업 휴리스틱에 의존해 왔습니다. 본 연구에서는 더 넓은 시각을 취하여 사전 학습 데이터의 품질을 체계적으로 측정할 수 있는 확장 가능한 데이터 품질 추정 방법을 탐구합니다. 우리는 단순한 데이터 품질 추정치인 퍼플렉서티(perplexity)와 더 정교하고 계산 집약적인 오차 L2-노름 및 기억화(memorization) 추정치를 대규모로 엄격하게 비교합니다. 이러한 메트릭을 사용하여 사전 학습 코퍼스를 순위화하고 정제한 후, 이렇게 정제된 데이터셋으로 훈련된 LLM을 비교합니다. 놀랍게도, 단순한 퍼플렉서티 기법이 더 계산 비용이 많이 드는 점수화 방법들을 능가하는 것으로 나타났습니다. 우리는 원래 훈련 데이터셋의 30%만으로 훈련하면서도 정제를 하지 않은 기준선을 개선했습니다. 본 연구는 고품질 코퍼스를 자동으로 큐레이션하는 새로운 전략의 기초를 마련하며, 성능을 유지하면서도 대부분의 사전 학습 데이터를 제거할 수 있음을 시사합니다.
English
Large volumes of text data have contributed significantly to the development
of large language models (LLMs) in recent years. This data is typically
acquired by scraping the internet, leading to pretraining datasets comprised of
noisy web text. To date, efforts to prune these datasets down to a higher
quality subset have relied on hand-crafted heuristics encoded as rule-based
filters. In this work, we take a wider view and explore scalable estimates of
data quality that can be used to systematically measure the quality of
pretraining data. We perform a rigorous comparison at scale of the simple data
quality estimator of perplexity, as well as more sophisticated and
computationally intensive estimates of the Error L2-Norm and memorization.
These metrics are used to rank and prune pretraining corpora, and we
subsequently compare LLMs trained on these pruned datasets. Surprisingly, we
find that the simple technique of perplexity outperforms our more
computationally expensive scoring methods. We improve over our no-pruning
baseline while training on as little as 30% of the original training dataset.
Our work sets the foundation for unexplored strategies in automatically
curating high quality corpora and suggests the majority of pretraining data can
be removed while retaining performance.