Prädiktive Datenauswahl: Die Daten, die vorhersagen, sind die Daten, die lehrenPredictive Data Selection: The Data That Predicts Is the Data That
Teaches
Das Pretraining von Sprachmodellen beinhaltet das Training auf umfangreichen Textkorpora, wobei die Datenqualität eine entscheidende Rolle spielt. In dieser Arbeit zielen wir darauf ab, den Beitrag der Daten während des Pretrainings direkt zu schätzen und die Pretraining-Daten auf effiziente Weise auszuwählen. Insbesondere lassen wir uns von jüngsten Erkenntnissen inspirieren, die zeigen, dass die Kompressionseffizienz (d. h. der normalisierte Verlust) verschiedener Modelle auf bestimmten Texten stark mit ihrer nachgelagerten Leistung korreliert, wenn die Textdomäne mit dem nachgelagerten Benchmark übereinstimmt (Huang et al., 2024). Aufbauend auf dieser Beobachtung stellen wir die Hypothese auf, dass Daten, bei denen die Modellverluste die nachgelagerten Fähigkeiten vorhersagen, auch effektiv zum Lernen beitragen. Um diese Erkenntnis zu nutzen, führen wir eine Datenauswahl basierend auf der Vorhersagestärke der Daten (PreSelect) ein, eine leichte und effiziente Methode zur Datenauswahl, die nur das Training und den Einsatz eines fastText-basierten Scorers erfordert. Durch umfangreiche Experimente mit Modellen mit 1B und 3B Parametern zeigen wir, dass Modelle, die auf 30B Token trainiert wurden, die mit PreSelect ausgewählt wurden, die Leistung eines einfachen Basismodells, das auf 300B Token trainiert wurde, übertreffen und dabei den Rechenaufwand um das 10-fache reduzieren. Darüber hinaus übertrifft PreSelect andere wettbewerbsfähige Datenauswahl-Baselines wie DCLM und FineWeb-Edu bei Modellen mit 3B Parametern, die auf 100B Token trainiert wurden, deutlich. Wir stellen unseren trainierten Datenauswahl-Scorer zusammen mit den kuratierten Datensätzen unter https://github.com/hkust-nlp/PreSelect als Open Source zur Verfügung.