MAGA: Reformulação Massiva de Gênero-Público para Expansão do Corpus de Pré-treinamento
MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion
February 6, 2025
Autores: Xintong Hao, Ke Shen, Chenggang Li
cs.AI
Resumo
Apesar das notáveis capacidades dos grandes modelos de linguagem em várias tarefas, seu contínuo escalonamento enfrenta um desafio crítico: a escassez de dados de pré-treinamento de alta qualidade. Enquanto as arquiteturas de modelos continuam a evoluir, os dados de linguagem natural lutam para aumentar em escala. Para enfrentar esse gargalo, propomos o método de reformulação MAssive Genre-Audience (MAGA), que sintetiza sistematicamente dados de pré-treinamento diversos e ricos em contexto a partir de um corpus existente. Este trabalho apresenta três principais contribuições: (1) Propomos o método de reformulação MAGA, uma abordagem leve e escalável para expansão de corpus de pré-treinamento, e construímos um MAGACorpus com 770 bilhões de tokens. (2) Avaliamos o MAGACorpus com diferentes estratégias de escalonamento de orçamento de dados, demonstrando melhorias consistentes em vários tamanhos de modelo (de 134 milhões a 13 bilhões de parâmetros), estabelecendo a necessidade de modelos de linguagem de pré-treinamento sintéticos em larga escala de próxima geração. (3) Por meio de uma análise abrangente, investigamos o impacto da engenharia de prompts no colapso do treinamento sintético e revelamos limitações nas métricas convencionais de detecção de colapso usando perdas de validação. Nosso trabalho mostra que o MAGA pode expandir substancialmente conjuntos de dados de treinamento mantendo a qualidade, oferecendo um caminho confiável para escalonar modelos além das limitações de dados.
English
Despite the remarkable capabilities of large language models across various
tasks, their continued scaling faces a critical challenge: the scarcity of
high-quality pretraining data. While model architectures continue to evolve,
the natural language data struggles to scale up. To tackle this bottleneck, we
propose MAssive Genre-Audience~(MAGA) reformulation
method, which systematic synthesizes diverse, contextually-rich pretraining
data from existing corpus. This work makes three main contributions: (1) We
propose MAGA reformulation method, a lightweight and scalable approach for
pretraining corpus expansion, and build a 770B tokens MAGACorpus. (2) We
evaluate MAGACorpus with different data budget scaling strategies,
demonstrating consistent improvements across various model sizes (134M-13B),
establishing the necessity for next-generation large-scale synthetic
pretraining language models. (3) Through comprehensive analysis, we investigate
prompt engineering's impact on synthetic training collapse and reveal
limitations in conventional collapse detection metrics using validation losses.
Our work shows that MAGA can substantially expand training datasets while
maintaining quality, offering a reliably pathway for scaling models beyond data
limitations.Summary
AI-Generated Summary