MAGA: Reformulación Masiva de Género-Audiencia para la Expansión del Corpus de Preentrenamiento
MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion
February 6, 2025
Autores: Xintong Hao, Ke Shen, Chenggang Li
cs.AI
Resumen
A pesar de las notables capacidades de los grandes modelos de lenguaje en diversas tareas, su continuo escalado enfrenta un desafío crítico: la escasez de datos de preentrenamiento de alta calidad. Mientras las arquitecturas de los modelos siguen evolucionando, los datos de lenguaje natural luchan por escalar. Para abordar este cuello de botella, proponemos el método de reformulación MAsiva de Género-Audiencia (MAGA), que sintetiza sistemáticamente datos de preentrenamiento diversos y ricos en contexto a partir de un corpus existente. Este trabajo realiza tres contribuciones principales: (1) Proponemos el método de reformulación MAGA, un enfoque ligero y escalable para la expansión de corpus de preentrenamiento, y construimos un corpus MAGA de 770 mil millones de tokens. (2) Evaluamos el corpus MAGA con diferentes estrategias de escalado de presupuesto de datos, demostrando mejoras consistentes en diversos tamaños de modelo (134M-13B), estableciendo la necesidad de modelos de lenguaje de preentrenamiento sintético a gran escala de próxima generación. (3) A través de un análisis exhaustivo, investigamos el impacto del diseño de indicaciones en el colapso del entrenamiento sintético y revelamos limitaciones en las métricas convencionales de detección de colapso utilizando pérdidas de validación. Nuestro trabajo muestra que MAGA puede expandir sustancialmente los conjuntos de datos de entrenamiento manteniendo la calidad, ofreciendo un camino confiable para escalar modelos más allá de las limitaciones de datos.
English
Despite the remarkable capabilities of large language models across various
tasks, their continued scaling faces a critical challenge: the scarcity of
high-quality pretraining data. While model architectures continue to evolve,
the natural language data struggles to scale up. To tackle this bottleneck, we
propose MAssive Genre-Audience~(MAGA) reformulation
method, which systematic synthesizes diverse, contextually-rich pretraining
data from existing corpus. This work makes three main contributions: (1) We
propose MAGA reformulation method, a lightweight and scalable approach for
pretraining corpus expansion, and build a 770B tokens MAGACorpus. (2) We
evaluate MAGACorpus with different data budget scaling strategies,
demonstrating consistent improvements across various model sizes (134M-13B),
establishing the necessity for next-generation large-scale synthetic
pretraining language models. (3) Through comprehensive analysis, we investigate
prompt engineering's impact on synthetic training collapse and reveal
limitations in conventional collapse detection metrics using validation losses.
Our work shows that MAGA can substantially expand training datasets while
maintaining quality, offering a reliably pathway for scaling models beyond data
limitations.Summary
AI-Generated Summary