Prädiktive Datenauswahl: Die Daten, die vorhersagen, sind die Daten, die lehren
Predictive Data Selection: The Data That Predicts Is the Data That Teaches
March 2, 2025
Autoren: Kashun Shum, Yuzhen Huang, Hongjian Zou, Ding Qi, Yixuan Liao, Xiaoxin Chen, Qian Liu, Junxian He
cs.AI
Zusammenfassung
Das Pretraining von Sprachmodellen beinhaltet das Training auf umfangreichen Textkorpora, wobei die Datenqualität eine entscheidende Rolle spielt. In dieser Arbeit zielen wir darauf ab, den Beitrag der Daten während des Pretrainings direkt zu schätzen und die Pretraining-Daten auf effiziente Weise auszuwählen. Insbesondere lassen wir uns von jüngsten Erkenntnissen inspirieren, die zeigen, dass die Kompressionseffizienz (d. h. der normalisierte Verlust) verschiedener Modelle auf bestimmten Texten stark mit ihrer nachgelagerten Leistung korreliert, wenn die Textdomäne mit dem nachgelagerten Benchmark übereinstimmt (Huang et al., 2024). Aufbauend auf dieser Beobachtung stellen wir die Hypothese auf, dass Daten, bei denen die Modellverluste die nachgelagerten Fähigkeiten vorhersagen, auch effektiv zum Lernen beitragen. Um diese Erkenntnis zu nutzen, führen wir eine Datenauswahl basierend auf der Vorhersagestärke der Daten (PreSelect) ein, eine leichte und effiziente Methode zur Datenauswahl, die nur das Training und den Einsatz eines fastText-basierten Scorers erfordert. Durch umfangreiche Experimente mit Modellen mit 1B und 3B Parametern zeigen wir, dass Modelle, die auf 30B Token trainiert wurden, die mit PreSelect ausgewählt wurden, die Leistung eines einfachen Basismodells, das auf 300B Token trainiert wurde, übertreffen und dabei den Rechenaufwand um das 10-fache reduzieren. Darüber hinaus übertrifft PreSelect andere wettbewerbsfähige Datenauswahl-Baselines wie DCLM und FineWeb-Edu bei Modellen mit 3B Parametern, die auf 100B Token trainiert wurden, deutlich. Wir stellen unseren trainierten Datenauswahl-Scorer zusammen mit den kuratierten Datensätzen unter https://github.com/hkust-nlp/PreSelect als Open Source zur Verfügung.
English
Language model pretraining involves training on extensive corpora, where data
quality plays a pivotal role. In this work, we aim to directly estimate the
contribution of data during pretraining and select pretraining data in an
efficient manner. Specifically, we draw inspiration from recent findings
showing that compression efficiency (i.e., the normalized loss) of diverse
models on certain text correlates strongly with their downstream performance,
when the text domain aligns with the downstream benchmark (Huang et al., 2024).
Building on this observation, we hypothesize that data on which model losses
are predictive of downstream abilities also contribute effectively to learning.
To leverage this insight, we introduce data selection based on data's
Predictive strength (Preselect), a lightweight and efficient data selection
method that requires training and deploying only a fastText-based scorer.
Through comprehensive experiments with 1B and 3B parameter models, we
demonstrate that models trained on 30B tokens selected with PreSelect surpasses
the performance of a vanilla baseline trained on 300B tokens, achieving a 10x
reduction in compute requirements. Furthermore, PreSelect significantly
outperforms other competitive data selection baselines, such as DCLM and
FineWeb-Edu on a scale of 3B models trained on 100B tokens. We open-source our
trained data selection scorer along with the curated datasets at
https://github.com/hkust-nlp/PreSelect.Summary
AI-Generated Summary