MAGA: Massive Genre-Publikumsneuformulierung zur Erweiterung des Pretraining-Korpus

papers.abstract

Trotz der bemerkenswerten Fähigkeiten großer Sprachmodelle in verschiedenen Aufgaben steht ihr kontinuierliches Skalieren vor einer entscheidenden Herausforderung: dem Mangel an hochwertigen Vortrainingsdaten. Während sich die Modellarchitekturen weiterentwickeln, stößt die Skalierung natürlicher Sprachdaten an Grenzen. Um dieses Engpassproblem zu bewältigen, schlagen wir die MAGA (MAssive Genre-Audience) Reformulierungsmethode vor, die systematisch vielfältige, kontextuell reiche Vortrainingsdaten aus vorhandenen Korpora synthetisiert. Diese Arbeit leistet drei Hauptbeiträge: (1) Wir schlagen die MAGA Reformulierungsmethode vor, einen leichtgewichtigen und skalierbaren Ansatz zur Erweiterung von Korpora für das Vortraining, und erstellen ein 770 Milliarden Token umfassendes MAGACorpus. (2) Wir evaluieren das MAGACorpus mit verschiedenen Strategien zur Skalierung des Datenbudgets und zeigen konsistente Verbesserungen über verschiedene Modellgrößen hinweg (134M-13B), was die Notwendigkeit für groß angelegte synthetische Vortrainings-Sprachmodelle der nächsten Generation unterstreicht. (3) Durch umfassende Analysen untersuchen wir den Einfluss des Prompt Engineerings auf den Zusammenbruch des synthetischen Trainings und zeigen Grenzen konventioneller Metriken zur Erkennung von Zusammenbrüchen anhand von Validierungsverlusten auf. Unsere Arbeit zeigt, dass MAGA die Trainingsdatensätze erheblich erweitern kann, während die Qualität erhalten bleibt und somit einen zuverlässigen Weg für das Skalieren von Modellen über Datenbeschränkungen hinaus bietet.

English

Despite the remarkable capabilities of large language models across various tasks, their continued scaling faces a critical challenge: the scarcity of high-quality pretraining data. While model architectures continue to evolve, the natural language data struggles to scale up. To tackle this bottleneck, we propose MAssive Genre-Audience~(MAGA) reformulation method, which systematic synthesizes diverse, contextually-rich pretraining data from existing corpus. This work makes three main contributions: (1) We propose MAGA reformulation method, a lightweight and scalable approach for pretraining corpus expansion, and build a 770B tokens MAGACorpus. (2) We evaluate MAGACorpus with different data budget scaling strategies, demonstrating consistent improvements across various model sizes (134M-13B), establishing the necessity for next-generation large-scale synthetic pretraining language models. (3) Through comprehensive analysis, we investigate prompt engineering's impact on synthetic training collapse and reveal limitations in conventional collapse detection metrics using validation losses. Our work shows that MAGA can substantially expand training datasets while maintaining quality, offering a reliably pathway for scaling models beyond data limitations.

MAGA: Massive Genre-Publikumsneuformulierung zur Erweiterung des Pretraining-Korpus

MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion

papers.abstract

Support