ChatPaper.aiChatPaper

MAGA: Riformulazione Massiccia di Genere-Pubblico per l'Espansione del Corpus di Preallenamento

MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion

February 6, 2025
Autori: Xintong Hao, Ke Shen, Chenggang Li
cs.AI

Abstract

Nonostante le notevoli capacità dei grandi modelli linguistici in varie attività, la loro continua scalabilità si trova di fronte a una sfida critica: la scarsità di dati di preaddestramento di alta qualità. Mentre le architetture dei modelli continuano a evolversi, i dati di linguaggio naturale faticano a scalare. Per affrontare questo collo di bottiglia, proponiamo il metodo di riformulazione MAssive Genre-Audience (MAGA), che sintetizza in modo sistematico dati di preaddestramento diversificati e ricchi di contesto da corpora esistenti. Questo lavoro apporta tre principali contributi: (1) Proponiamo il metodo di riformulazione MAGA, un approccio leggero e scalabile per l'espansione dei corpora di preaddestramento e costruiamo un corpus MAGACorpus di 770 miliardi di token. (2) Valutiamo il MAGACorpus con diverse strategie di scalabilità del budget dei dati, dimostrando miglioramenti costanti su varie dimensioni di modelli (da 134 milioni a 13 miliardi), stabilendo la necessità di modelli di linguaggio di preaddestramento sintetico su larga scala di prossima generazione. (3) Attraverso un'analisi approfondita, indaghiamo sull'impatto dell'ingegneria delle prompt sul collasso dell'addestramento sintetico e riveliamo limitazioni nelle metriche convenzionali di rilevamento del collasso utilizzando le perdite di validazione. Il nostro lavoro mostra che MAGA può espandere notevolmente i dataset di addestramento mantenendo la qualità, offrendo un percorso affidabile per scalare i modelli al di là delle limitazioni dei dati.
English
Despite the remarkable capabilities of large language models across various tasks, their continued scaling faces a critical challenge: the scarcity of high-quality pretraining data. While model architectures continue to evolve, the natural language data struggles to scale up. To tackle this bottleneck, we propose MAssive Genre-Audience~(MAGA) reformulation method, which systematic synthesizes diverse, contextually-rich pretraining data from existing corpus. This work makes three main contributions: (1) We propose MAGA reformulation method, a lightweight and scalable approach for pretraining corpus expansion, and build a 770B tokens MAGACorpus. (2) We evaluate MAGACorpus with different data budget scaling strategies, demonstrating consistent improvements across various model sizes (134M-13B), establishing the necessity for next-generation large-scale synthetic pretraining language models. (3) Through comprehensive analysis, we investigate prompt engineering's impact on synthetic training collapse and reveal limitations in conventional collapse detection metrics using validation losses. Our work shows that MAGA can substantially expand training datasets while maintaining quality, offering a reliably pathway for scaling models beyond data limitations.

Summary

AI-Generated Summary

PDF222February 7, 2025