Sélection de données à grande échelle pour le réglage par instructions
Large-Scale Data Selection for Instruction Tuning
March 3, 2025
Auteurs: Hamish Ivison, Muru Zhang, Faeze Brahman, Pang Wei Koh, Pradeep Dasigi
cs.AI
Résumé
La sélection de données d'entraînement de haute qualité à partir d'un ensemble plus large est une étape cruciale lors du réglage par instruction des modèles de langage, car des ensembles de données soigneusement sélectionnés produisent souvent des modèles qui surpassent ceux entraînés sur des ensembles de données beaucoup plus vastes et bruyants. Les approches automatisées de sélection de données pour le réglage par instruction sont généralement testées en sélectionnant de petits ensembles de données (environ 10 000 échantillons) à partir de pools réduits (100 000 à 200 000 échantillons). Cependant, les modèles populaires déployés réglés par instruction s'entraînent souvent sur des centaines de milliers à des millions d'échantillons, sous-échantillonnés à partir de pools de données encore plus vastes. Nous présentons une étude systématique de la manière dont les méthodes de sélection de données s'adaptent à ces configurations, en sélectionnant jusqu'à 2,5 millions d'échantillons à partir de pools allant jusqu'à 5,8 millions d'échantillons et en évaluant sur 7 tâches diverses. Nous montrons que de nombreuses méthodes récemment proposées ne parviennent pas à surpasser la sélection aléatoire dans ce contexte (tout en utilisant plus de ressources de calcul), et voient même leurs performances diminuer lorsqu'elles ont accès à des pools de données plus vastes pour effectuer leur sélection. Cependant, nous constatons qu'une variante de la sélection de données basée sur la représentation (RDS+), qui utilise un regroupement pondéré des états cachés d'un modèle de langage pré-entraîné, surpasse systématiquement des méthodes plus complexes dans tous les contextes testés — tout en étant plus efficace en termes de calcul. Nos résultats soulignent que les propriétés de mise à l'échelle des méthodes de sélection automatisées proposées devraient être examinées de plus près. Nous publions notre code, nos données et nos modèles à l'adresse https://github.com/hamishivi/automated-instruction-selection.
English
Selecting high-quality training data from a larger pool is a crucial step
when instruction-tuning language models, as carefully curated datasets often
produce models that outperform those trained on much larger, noisier datasets.
Automated data selection approaches for instruction-tuning are typically tested
by selecting small datasets (roughly 10k samples) from small pools (100-200k
samples). However, popular deployed instruction-tuned models often train on
hundreds of thousands to millions of samples, subsampled from even larger data
pools. We present a systematic study of how well data selection methods scale
to these settings, selecting up to 2.5M samples from pools of up to 5.8M
samples and evaluating across 7 diverse tasks. We show that many recently
proposed methods fall short of random selection in this setting (while using
more compute), and even decline in performance when given access to larger
pools of data to select over. However, we find that a variant of
representation-based data selection (RDS+), which uses weighted mean pooling of
pretrained LM hidden states, consistently outperforms more complex methods
across all settings tested -- all whilst being more compute-efficient. Our
findings highlight that the scaling properties of proposed automated selection
methods should be more closely examined. We release our code, data, and models
at https://github.com/hamishivi/automated-instruction-selection.Summary
AI-Generated Summary