MAGA: Massive Genre-Publikumsneuformulierung zur Erweiterung des Pretraining-Korpus
MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion
February 6, 2025
Autoren: Xintong Hao, Ke Shen, Chenggang Li
cs.AI
Zusammenfassung
Trotz der bemerkenswerten Fähigkeiten großer Sprachmodelle in verschiedenen Aufgaben steht ihr kontinuierliches Skalieren vor einer entscheidenden Herausforderung: dem Mangel an hochwertigen Vortrainingsdaten. Während sich die Modellarchitekturen weiterentwickeln, stößt die Skalierung natürlicher Sprachdaten an Grenzen. Um dieses Engpassproblem zu bewältigen, schlagen wir die MAGA (MAssive Genre-Audience) Reformulierungsmethode vor, die systematisch vielfältige, kontextuell reiche Vortrainingsdaten aus vorhandenen Korpora synthetisiert. Diese Arbeit leistet drei Hauptbeiträge: (1) Wir schlagen die MAGA Reformulierungsmethode vor, einen leichtgewichtigen und skalierbaren Ansatz zur Erweiterung von Korpora für das Vortraining, und erstellen ein 770 Milliarden Token umfassendes MAGACorpus. (2) Wir evaluieren das MAGACorpus mit verschiedenen Strategien zur Skalierung des Datenbudgets und zeigen konsistente Verbesserungen über verschiedene Modellgrößen hinweg (134M-13B), was die Notwendigkeit für groß angelegte synthetische Vortrainings-Sprachmodelle der nächsten Generation unterstreicht. (3) Durch umfassende Analysen untersuchen wir den Einfluss des Prompt Engineerings auf den Zusammenbruch des synthetischen Trainings und zeigen Grenzen konventioneller Metriken zur Erkennung von Zusammenbrüchen anhand von Validierungsverlusten auf. Unsere Arbeit zeigt, dass MAGA die Trainingsdatensätze erheblich erweitern kann, während die Qualität erhalten bleibt und somit einen zuverlässigen Weg für das Skalieren von Modellen über Datenbeschränkungen hinaus bietet.
English
Despite the remarkable capabilities of large language models across various
tasks, their continued scaling faces a critical challenge: the scarcity of
high-quality pretraining data. While model architectures continue to evolve,
the natural language data struggles to scale up. To tackle this bottleneck, we
propose MAssive Genre-Audience~(MAGA) reformulation
method, which systematic synthesizes diverse, contextually-rich pretraining
data from existing corpus. This work makes three main contributions: (1) We
propose MAGA reformulation method, a lightweight and scalable approach for
pretraining corpus expansion, and build a 770B tokens MAGACorpus. (2) We
evaluate MAGACorpus with different data budget scaling strategies,
demonstrating consistent improvements across various model sizes (134M-13B),
establishing the necessity for next-generation large-scale synthetic
pretraining language models. (3) Through comprehensive analysis, we investigate
prompt engineering's impact on synthetic training collapse and reveal
limitations in conventional collapse detection metrics using validation losses.
Our work shows that MAGA can substantially expand training datasets while
maintaining quality, offering a reliably pathway for scaling models beyond data
limitations.Summary
AI-Generated Summary