예측적 데이터 선택: 예측하는 데이터가 가르치는 데이터다
Predictive Data Selection: The Data That Predicts Is the Data That Teaches
March 2, 2025
저자: Kashun Shum, Yuzhen Huang, Hongjian Zou, Ding Qi, Yixuan Liao, Xiaoxin Chen, Qian Liu, Junxian He
cs.AI
초록
언어 모델 사전 학습은 방대한 코퍼스에 대한 훈련을 포함하며, 여기서 데이터 품질이 중요한 역할을 합니다. 본 연구에서는 사전 학습 중 데이터의 기여도를 직접 추정하고, 효율적인 방식으로 사전 학습 데이터를 선택하는 것을 목표로 합니다. 구체적으로, 최근 연구 결과에서 다양한 모델의 특정 텍스트에 대한 압축 효율성(즉, 정규화된 손실)이 해당 텍스트 도메인이 다운스트림 벤치마크와 일치할 때 다운스트림 성능과 강한 상관관계를 보인다는 점(Huang et al., 2024)에서 영감을 얻었습니다. 이 관찰을 바탕으로, 모델 손실이 다운스트림 능력을 예측할 수 있는 데이터가 학습에 효과적으로 기여한다는 가설을 세웠습니다. 이러한 통찰을 활용하기 위해, 데이터의 예측 강도(Predictive strength, PreSelect)를 기반으로 한 데이터 선택 방법을 제안합니다. 이 방법은 fastText 기반 스코어만을 훈련하고 배포하는 가볍고 효율적인 데이터 선택 방법입니다. 1B 및 3B 파라미터 모델을 사용한 포괄적인 실험을 통해, PreSelect로 선택된 30B 토큰으로 훈련된 모델이 300B 토큰으로 훈련된 일반 베이스라인 모델의 성능을 능가하며, 계산 요구량을 10배 감소시킨다는 것을 입증했습니다. 또한, PreSelect는 100B 토큰으로 훈련된 3B 모델 규모에서 DCLM 및 FineWeb-Edu와 같은 다른 경쟁적인 데이터 선택 베이스라인을 크게 앞질렀습니다. 우리는 훈련된 데이터 선택 스코어와 선별된 데이터셋을 https://github.com/hkust-nlp/PreSelect에서 공개합니다.
English
Language model pretraining involves training on extensive corpora, where data
quality plays a pivotal role. In this work, we aim to directly estimate the
contribution of data during pretraining and select pretraining data in an
efficient manner. Specifically, we draw inspiration from recent findings
showing that compression efficiency (i.e., the normalized loss) of diverse
models on certain text correlates strongly with their downstream performance,
when the text domain aligns with the downstream benchmark (Huang et al., 2024).
Building on this observation, we hypothesize that data on which model losses
are predictive of downstream abilities also contribute effectively to learning.
To leverage this insight, we introduce data selection based on data's
Predictive strength (Preselect), a lightweight and efficient data selection
method that requires training and deploying only a fastText-based scorer.
Through comprehensive experiments with 1B and 3B parameter models, we
demonstrate that models trained on 30B tokens selected with PreSelect surpasses
the performance of a vanilla baseline trained on 300B tokens, achieving a 10x
reduction in compute requirements. Furthermore, PreSelect significantly
outperforms other competitive data selection baselines, such as DCLM and
FineWeb-Edu on a scale of 3B models trained on 100B tokens. We open-source our
trained data selection scorer along with the curated datasets at
https://github.com/hkust-nlp/PreSelect.Summary
AI-Generated Summary