대규모 데이터 선택을 통한 지시 튜닝
Large-Scale Data Selection for Instruction Tuning
March 3, 2025
저자: Hamish Ivison, Muru Zhang, Faeze Brahman, Pang Wei Koh, Pradeep Dasigi
cs.AI
초록
더 큰 데이터 풀에서 고품질의 학습 데이터를 선택하는 것은 언어 모델을 인스트럭션 튜닝할 때 매우 중요한 단계입니다. 신중하게 선별된 데이터셋은 훨씬 더 크고 노이즈가 많은 데이터셋으로 학습된 모델보다 더 나은 성능을 보이는 경우가 많기 때문입니다. 인스트럭션 튜닝을 위한 자동화된 데이터 선택 접근법은 일반적으로 작은 데이터 풀(10만~20만 개 샘플)에서 작은 데이터셋(약 1만 개 샘플)을 선택하는 방식으로 테스트됩니다. 그러나 실제로 배포된 인기 있는 인스트럭션 튜닝 모델들은 훨씬 더 큰 데이터 풀에서 서브샘플링된 수십만에서 수백만 개의 샘플로 학습하는 경우가 많습니다. 본 연구에서는 이러한 환경에서 데이터 선택 방법이 얼마나 잘 확장되는지 체계적으로 연구하며, 최대 580만 개의 데이터 풀에서 최대 250만 개의 샘플을 선택하고 7가지 다양한 작업에서 평가를 진행했습니다. 그 결과, 최근 제안된 많은 방법들이 이 환경에서 무작위 선택보다 성능이 떨어지는 동시에 더 많은 계산 자원을 사용하는 것으로 나타났으며, 더 큰 데이터 풀에 접근할수록 성능이 저하되는 경우도 확인했습니다. 그러나 사전 학습된 언어 모델의 은닉 상태에 가중 평균 풀링을 적용한 표현 기반 데이터 선택(RDS+)의 변형은 모든 테스트 환경에서 더 복잡한 방법들을 일관되게 능가하면서도 계산 효율성이 더 높은 것으로 나타났습니다. 본 연구 결과는 제안된 자동화된 선택 방법들의 확장성을 더 면밀히 검토해야 할 필요성을 강조합니다. 코드, 데이터 및 모델은 https://github.com/hamishivi/automated-instruction-selection에서 공개합니다.
English
Selecting high-quality training data from a larger pool is a crucial step
when instruction-tuning language models, as carefully curated datasets often
produce models that outperform those trained on much larger, noisier datasets.
Automated data selection approaches for instruction-tuning are typically tested
by selecting small datasets (roughly 10k samples) from small pools (100-200k
samples). However, popular deployed instruction-tuned models often train on
hundreds of thousands to millions of samples, subsampled from even larger data
pools. We present a systematic study of how well data selection methods scale
to these settings, selecting up to 2.5M samples from pools of up to 5.8M
samples and evaluating across 7 diverse tasks. We show that many recently
proposed methods fall short of random selection in this setting (while using
more compute), and even decline in performance when given access to larger
pools of data to select over. However, we find that a variant of
representation-based data selection (RDS+), which uses weighted mean pooling of
pretrained LM hidden states, consistently outperforms more complex methods
across all settings tested -- all whilst being more compute-efficient. Our
findings highlight that the scaling properties of proposed automated selection
methods should be more closely examined. We release our code, data, and models
at https://github.com/hamishivi/automated-instruction-selection.Summary
AI-Generated Summary