Programmierung jedes Beispiels: Verbesserung der Datenqualität beim Pre-Training wie Experten im großen Maßstab

papers.abstract

Die Vorbereitung großer Sprachmodelle beruhte traditionell auf menschlichen Experten, die Heuristiken zur Verbesserung der Qualität der Korpora entwickelten, was zu zahlreichen bis heute entwickelten Regeln führte. Diese Regeln sind jedoch nicht flexibel genug, um die einzigartigen Merkmale einzelner Beispiele effektiv anzugehen. Gleichzeitig ist es für menschliche Experten unpraktisch, maßgeschneiderte Regeln auf jedes Beispiel anzuwenden. In diesem Artikel zeigen wir, dass selbst kleine Sprachmodelle mit nur 0,3 Mrd. Parametern erhebliche Datenverfeinerungsfähigkeiten aufweisen können, die mit denen von menschlichen Experten vergleichbar sind. Wir stellen Programming Every Example (ProX) vor, ein neuartiges Framework, das die Datenverfeinerung als Programmieraufgabe behandelt und es Modellen ermöglicht, Korpora zu verfeinern, indem sie feingranulare Operationen wie Zeichenfolgennormalisierung für jedes einzelne Beispiel im großen Maßstab generieren und ausführen. Experimentelle Ergebnisse zeigen, dass Modelle, die auf von ProX kuratierten Daten vorab trainiert wurden, in verschiedenen nachgelagerten Benchmarks um mehr als 2% besser abschneiden als die ursprünglichen Daten oder Daten, die durch andere Auswahlmethoden gefiltert wurden. Die Wirksamkeit erstreckt sich über verschiedene Modellgrößen und Vorabtrainingskorpora, einschließlich C4, RedPajama-V2 und FineWeb. Darüber hinaus zeigt ProX ein signifikantes Potenzial bei der kontinuierlichen Vorabtrainierung in domänenspezifischen Bereichen: Ohne domänenspezifisches Design übertreffen Modelle, die auf OpenWebMath trainiert und von ProX verfeinert wurden, methodenbasierte Regelmethoden, indem sie die durchschnittliche Genauigkeit um 7,6% gegenüber Mistral-7B verbessern, mit 14,6% für Llama-2-7B und 20,3% für CodeLlama-7B, alles innerhalb von 10 Mrd. Tokens, um mit Modellen wie Llemma-7B vergleichbar zu sein, die auf 200 Mrd. Tokens trainiert wurden. Eine weitere Analyse zeigt, dass ProX signifikant Training-FLOPs spart und einen vielversprechenden Weg für eine effiziente LLM-Vorabtrainierung bietet. Wir stellen ProX mit einem Korpus von >100 Mrd., Modellen und teilen alle Schulungs- und Implementierungsdetails für reproduzierbare Forschung und zukünftige Innovationen als Open-Source zur Verfügung. Code: https://github.com/GAIR-NLP/ProX

English

Large language model pre-training has traditionally relied on human experts to craft heuristics for improving the corpora quality, resulting in numerous rules developed to date. However, these rules lack the flexibility to address the unique characteristics of individual example effectively. Meanwhile, applying tailored rules to every example is impractical for human experts. In this paper, we demonstrate that even small language models, with as few as 0.3B parameters, can exhibit substantial data refining capabilities comparable to those of human experts. We introduce Programming Every Example (ProX), a novel framework that treats data refinement as a programming task, enabling models to refine corpora by generating and executing fine-grained operations, such as string normalization, for each individual example at scale. Experimental results show that models pre-trained on ProX-curated data outperform either original data or data filtered by other selection methods by more than 2% across various downstream benchmarks. Its effectiveness spans various model sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb. Furthermore, ProX exhibits significant potential in domain-specific continual pre-training: without domain specific design, models trained on OpenWebMath refined by ProX outperform human-crafted rule-based methods, improving average accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B trained on 200B tokens. Further analysis highlights that ProX significantly saves training FLOPs, offering a promising path for efficient LLM pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing all training and implementation details for reproducible research and future innovation. Code: https://github.com/GAIR-NLP/ProX

Programmierung jedes Beispiels: Verbesserung der Datenqualität beim Pre-Training wie Experten im großen Maßstab

Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

papers.abstract

Support