MAGA: Massale Genre-Publiekshervorming voor Uitbreiding van Voorafgaande Training Corpus
MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion
February 6, 2025
Auteurs: Xintong Hao, Ke Shen, Chenggang Li
cs.AI
Samenvatting
Ondanks de opmerkelijke capaciteiten van grote taalmodellen bij verschillende taken, staat hun voortdurende schaalvergroting voor een kritieke uitdaging: het gebrek aan hoogwaardige pretraining data. Terwijl modelarchitecturen blijven evolueren, worstelt de natuurlijke taaldata om op te schalen. Om dit knelpunt aan te pakken, stellen we de MAssive Genre-Audience (MAGA) hervormingsmethode voor, die systematisch diverse, contextueel rijke pretraining data synthetiseert uit bestaande corpora. Dit werk levert drie belangrijke bijdragen: (1) We stellen de MAGA hervormingsmethode voor, een lichtgewicht en schaalbare benadering voor de uitbreiding van pretraining corpora, en bouwen een 770 miljard tokens MAGACorpus. (2) We evalueren MAGACorpus met verschillende schalingsstrategieën voor databudget, waarbij consistente verbeteringen worden aangetoond bij verschillende modelgroottes (134M-13B), waarmee de noodzaak voor grootschalige synthetische pretraining taalmodellen van de volgende generatie wordt vastgesteld. (3) Door uitgebreide analyse onderzoeken we de impact van prompt engineering op het ineenstorten van synthetische training en onthullen we beperkingen in conventionele detectiemetrieken voor ineenstorting door het gebruik van validatieverliezen. Ons werk toont aan dat MAGA training datasets aanzienlijk kan uitbreiden met behoud van kwaliteit, en zo een betrouwbare weg biedt voor het schalen van modellen voorbij de beperkingen van data.
English
Despite the remarkable capabilities of large language models across various
tasks, their continued scaling faces a critical challenge: the scarcity of
high-quality pretraining data. While model architectures continue to evolve,
the natural language data struggles to scale up. To tackle this bottleneck, we
propose MAssive Genre-Audience~(MAGA) reformulation
method, which systematic synthesizes diverse, contextually-rich pretraining
data from existing corpus. This work makes three main contributions: (1) We
propose MAGA reformulation method, a lightweight and scalable approach for
pretraining corpus expansion, and build a 770B tokens MAGACorpus. (2) We
evaluate MAGACorpus with different data budget scaling strategies,
demonstrating consistent improvements across various model sizes (134M-13B),
establishing the necessity for next-generation large-scale synthetic
pretraining language models. (3) Through comprehensive analysis, we investigate
prompt engineering's impact on synthetic training collapse and reveal
limitations in conventional collapse detection metrics using validation losses.
Our work shows that MAGA can substantially expand training datasets while
maintaining quality, offering a reliably pathway for scaling models beyond data
limitations.Summary
AI-Generated Summary