MAGA : Réformulation massive de genre-audience pour l'expansion du corpus de pré-entraînement
MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion
February 6, 2025
Auteurs: Xintong Hao, Ke Shen, Chenggang Li
cs.AI
Résumé
Malgré les capacités remarquables des grands modèles de langage dans diverses tâches, leur expansion continue est confrontée à un défi critique : la rareté de données de pré-entraînement de haute qualité. Alors que les architectures de modèles continuent d'évoluer, les données en langage naturel peinent à s'étendre. Pour résoudre ce goulot d'étranglement, nous proposons la méthode de reformulation MAssive Genre-Audience (MAGA), qui synthétise de manière systématique des données de pré-entraînement diverses et riches en contexte à partir de corpus existants. Ce travail apporte trois contributions principales : (1) Nous proposons la méthode de reformulation MAGA, une approche légère et évolutive pour l'expansion des corpus de pré-entraînement, et construisons un corpus MAGACorpus de 770 milliards de jetons. (2) Nous évaluons le corpus MAGACorpus avec différentes stratégies de mise à l'échelle du budget de données, démontrant des améliorations constantes à travers diverses tailles de modèles (134M-13B), établissant la nécessité de modèles de langage pré-entraînement synthétiques à grande échelle de nouvelle génération. (3) À travers une analyse approfondie, nous étudions l'impact de l'ingénierie de l'invite sur l'effondrement de l'entraînement synthétique et révélons les limites des métriques conventionnelles de détection de l'effondrement en utilisant des pertes de validation. Notre travail montre que MAGA peut considérablement étendre les ensembles de données d'entraînement tout en maintenant la qualité, offrant ainsi une voie fiable pour mettre à l'échelle les modèles au-delà des limitations de données.
English
Despite the remarkable capabilities of large language models across various
tasks, their continued scaling faces a critical challenge: the scarcity of
high-quality pretraining data. While model architectures continue to evolve,
the natural language data struggles to scale up. To tackle this bottleneck, we
propose MAssive Genre-Audience~(MAGA) reformulation
method, which systematic synthesizes diverse, contextually-rich pretraining
data from existing corpus. This work makes three main contributions: (1) We
propose MAGA reformulation method, a lightweight and scalable approach for
pretraining corpus expansion, and build a 770B tokens MAGACorpus. (2) We
evaluate MAGACorpus with different data budget scaling strategies,
demonstrating consistent improvements across various model sizes (134M-13B),
establishing the necessity for next-generation large-scale synthetic
pretraining language models. (3) Through comprehensive analysis, we investigate
prompt engineering's impact on synthetic training collapse and reveal
limitations in conventional collapse detection metrics using validation losses.
Our work shows that MAGA can substantially expand training datasets while
maintaining quality, offering a reliably pathway for scaling models beyond data
limitations.Summary
AI-Generated Summary