ChatPaper.aiChatPaper

대규모 데이터 선택을 통한 지시 튜닝

Large-Scale Data Selection for Instruction Tuning

March 3, 2025
저자: Hamish Ivison, Muru Zhang, Faeze Brahman, Pang Wei Koh, Pradeep Dasigi
cs.AI

초록

더 큰 데이터 풀에서 고품질의 학습 데이터를 선택하는 것은 언어 모델을 인스트럭션 튜닝할 때 매우 중요한 단계입니다. 신중하게 선별된 데이터셋은 훨씬 더 크고 노이즈가 많은 데이터셋으로 학습된 모델보다 더 나은 성능을 보이는 경우가 많기 때문입니다. 인스트럭션 튜닝을 위한 자동화된 데이터 선택 접근법은 일반적으로 작은 데이터 풀(10만~20만 개 샘플)에서 작은 데이터셋(약 1만 개 샘플)을 선택하는 방식으로 테스트됩니다. 그러나 실제로 배포된 인기 있는 인스트럭션 튜닝 모델들은 훨씬 더 큰 데이터 풀에서 서브샘플링된 수십만에서 수백만 개의 샘플로 학습하는 경우가 많습니다. 본 연구에서는 이러한 환경에서 데이터 선택 방법이 얼마나 잘 확장되는지 체계적으로 연구하며, 최대 580만 개의 데이터 풀에서 최대 250만 개의 샘플을 선택하고 7가지 다양한 작업에서 평가를 진행했습니다. 그 결과, 최근 제안된 많은 방법들이 이 환경에서 무작위 선택보다 성능이 떨어지는 동시에 더 많은 계산 자원을 사용하는 것으로 나타났으며, 더 큰 데이터 풀에 접근할수록 성능이 저하되는 경우도 확인했습니다. 그러나 사전 학습된 언어 모델의 은닉 상태에 가중 평균 풀링을 적용한 표현 기반 데이터 선택(RDS+)의 변형은 모든 테스트 환경에서 더 복잡한 방법들을 일관되게 능가하면서도 계산 효율성이 더 높은 것으로 나타났습니다. 본 연구 결과는 제안된 자동화된 선택 방법들의 확장성을 더 면밀히 검토해야 할 필요성을 강조합니다. 코드, 데이터 및 모델은 https://github.com/hamishivi/automated-instruction-selection에서 공개합니다.
English
Selecting high-quality training data from a larger pool is a crucial step when instruction-tuning language models, as carefully curated datasets often produce models that outperform those trained on much larger, noisier datasets. Automated data selection approaches for instruction-tuning are typically tested by selecting small datasets (roughly 10k samples) from small pools (100-200k samples). However, popular deployed instruction-tuned models often train on hundreds of thousands to millions of samples, subsampled from even larger data pools. We present a systematic study of how well data selection methods scale to these settings, selecting up to 2.5M samples from pools of up to 5.8M samples and evaluating across 7 diverse tasks. We show that many recently proposed methods fall short of random selection in this setting (while using more compute), and even decline in performance when given access to larger pools of data to select over. However, we find that a variant of representation-based data selection (RDS+), which uses weighted mean pooling of pretrained LM hidden states, consistently outperforms more complex methods across all settings tested -- all whilst being more compute-efficient. Our findings highlight that the scaling properties of proposed automated selection methods should be more closely examined. We release our code, data, and models at https://github.com/hamishivi/automated-instruction-selection.

Summary

AI-Generated Summary

PDF122March 4, 2025