CLIMB: Clustering-basierte iterative Datenmischung zur Bootstrapping-Vorverarbeitung von SprachmodellenCLIMB: CLustering-based Iterative Data Mixture Bootstrapping for
Language Model Pre-training
Vorverarbeitungsdatensätze werden typischerweise aus Webinhalten gesammelt und weisen keine inhärenten Domänenunterteilungen auf. Beispielsweise enthalten weit verbreitete Datensätze wie Common Crawl keine expliziten Domänenlabels, während die manuelle Kuratierung von gelabelten Datensätzen wie The Pile arbeitsintensiv ist. Folglich bleibt die Identifizierung einer optimalen Vorverarbeitungsdatenmischung ein herausforderndes Problem, obwohl sie erhebliche Vorteile für die Vorverarbeitungsleistung bietet. Um diese Herausforderungen zu bewältigen, schlagen wir CLustering-based Iterative Data Mixture Bootstrapping (CLIMB) vor, ein automatisiertes Framework, das Datenmischungen in einem Vorverarbeitungskontext entdeckt, bewertet und verfeinert. Konkret bettet CLIMB groß angelegte Datensätze in einen semantischen Raum ein, clustert sie und sucht dann iterativ nach optimalen Mischungen unter Verwendung eines kleineren Proxy-Modells und eines Prädiktors. Wenn unser 1B-Modell kontinuierlich mit dieser Mischung auf 400B Tokens trainiert wird, übertrifft es den State-of-the-Art Llama-3.2-1B um 2,0%. Darüber hinaus beobachten wir, dass die Optimierung für eine spezifische Domäne (z. B. Sozialwissenschaften) eine Verbesserung von 5 % gegenüber der zufälligen Stichprobenziehung erzielt. Schließlich stellen wir ClimbLab vor, ein gefiltertes 1,2-Billionen-Token-Korpus mit 20 Clustern als Forschungsumgebung, und ClimbMix, einen kompakten, aber leistungsstarken 400-Milliarden-Token-Datensatz, der für eine effiziente Vorverarbeitung konzipiert ist und unter einem gleichen Token-Budget eine überlegene Leistung liefert. Wir analysieren die endgültige Datenmischung und erläutern die Merkmale einer optimalen Datenmischung. Unsere Daten sind verfügbar unter: https://research.nvidia.com/labs/lpr/climb/