Programmierung jedes Beispiels: Verbesserung der Datenqualität beim Pre-Training wie Experten im großen Maßstab
Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale
September 25, 2024
Autoren: Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu
cs.AI
Zusammenfassung
Die Vorbereitung großer Sprachmodelle beruhte traditionell auf menschlichen Experten, die Heuristiken zur Verbesserung der Qualität der Korpora entwickelten, was zu zahlreichen bis heute entwickelten Regeln führte. Diese Regeln sind jedoch nicht flexibel genug, um die einzigartigen Merkmale einzelner Beispiele effektiv anzugehen. Gleichzeitig ist es für menschliche Experten unpraktisch, maßgeschneiderte Regeln auf jedes Beispiel anzuwenden. In diesem Artikel zeigen wir, dass selbst kleine Sprachmodelle mit nur 0,3 Mrd. Parametern erhebliche Datenverfeinerungsfähigkeiten aufweisen können, die mit denen von menschlichen Experten vergleichbar sind. Wir stellen Programming Every Example (ProX) vor, ein neuartiges Framework, das die Datenverfeinerung als Programmieraufgabe behandelt und es Modellen ermöglicht, Korpora zu verfeinern, indem sie feingranulare Operationen wie Zeichenfolgennormalisierung für jedes einzelne Beispiel im großen Maßstab generieren und ausführen. Experimentelle Ergebnisse zeigen, dass Modelle, die auf von ProX kuratierten Daten vorab trainiert wurden, in verschiedenen nachgelagerten Benchmarks um mehr als 2% besser abschneiden als die ursprünglichen Daten oder Daten, die durch andere Auswahlmethoden gefiltert wurden. Die Wirksamkeit erstreckt sich über verschiedene Modellgrößen und Vorabtrainingskorpora, einschließlich C4, RedPajama-V2 und FineWeb. Darüber hinaus zeigt ProX ein signifikantes Potenzial bei der kontinuierlichen Vorabtrainierung in domänenspezifischen Bereichen: Ohne domänenspezifisches Design übertreffen Modelle, die auf OpenWebMath trainiert und von ProX verfeinert wurden, methodenbasierte Regelmethoden, indem sie die durchschnittliche Genauigkeit um 7,6% gegenüber Mistral-7B verbessern, mit 14,6% für Llama-2-7B und 20,3% für CodeLlama-7B, alles innerhalb von 10 Mrd. Tokens, um mit Modellen wie Llemma-7B vergleichbar zu sein, die auf 200 Mrd. Tokens trainiert wurden. Eine weitere Analyse zeigt, dass ProX signifikant Training-FLOPs spart und einen vielversprechenden Weg für eine effiziente LLM-Vorabtrainierung bietet. Wir stellen ProX mit einem Korpus von >100 Mrd., Modellen und teilen alle Schulungs- und Implementierungsdetails für reproduzierbare Forschung und zukünftige Innovationen als Open-Source zur Verfügung. Code: https://github.com/GAIR-NLP/ProX
English
Large language model pre-training has traditionally relied on human experts
to craft heuristics for improving the corpora quality, resulting in numerous
rules developed to date. However, these rules lack the flexibility to address
the unique characteristics of individual example effectively. Meanwhile,
applying tailored rules to every example is impractical for human experts. In
this paper, we demonstrate that even small language models, with as few as 0.3B
parameters, can exhibit substantial data refining capabilities comparable to
those of human experts. We introduce Programming Every Example (ProX), a novel
framework that treats data refinement as a programming task, enabling models to
refine corpora by generating and executing fine-grained operations, such as
string normalization, for each individual example at scale. Experimental
results show that models pre-trained on ProX-curated data outperform either
original data or data filtered by other selection methods by more than 2%
across various downstream benchmarks. Its effectiveness spans various model
sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb.
Furthermore, ProX exhibits significant potential in domain-specific continual
pre-training: without domain specific design, models trained on OpenWebMath
refined by ProX outperform human-crafted rule-based methods, improving average
accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for
CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B
trained on 200B tokens. Further analysis highlights that ProX significantly
saves training FLOPs, offering a promising path for efficient LLM
pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing
all training and implementation details for reproducible research and future
innovation. Code: https://github.com/GAIR-NLP/ProXSummary
AI-Generated Summary