MAGA: Reformulação Massiva de Gênero-Público para Expansão do Corpus de Pré-treinamento

Resumo

Apesar das notáveis capacidades dos grandes modelos de linguagem em várias tarefas, seu contínuo escalonamento enfrenta um desafio crítico: a escassez de dados de pré-treinamento de alta qualidade. Enquanto as arquiteturas de modelos continuam a evoluir, os dados de linguagem natural lutam para aumentar em escala. Para enfrentar esse gargalo, propomos o método de reformulação MAssive Genre-Audience (MAGA), que sintetiza sistematicamente dados de pré-treinamento diversos e ricos em contexto a partir de um corpus existente. Este trabalho apresenta três principais contribuições: (1) Propomos o método de reformulação MAGA, uma abordagem leve e escalável para expansão de corpus de pré-treinamento, e construímos um MAGACorpus com 770 bilhões de tokens. (2) Avaliamos o MAGACorpus com diferentes estratégias de escalonamento de orçamento de dados, demonstrando melhorias consistentes em vários tamanhos de modelo (de 134 milhões a 13 bilhões de parâmetros), estabelecendo a necessidade de modelos de linguagem de pré-treinamento sintéticos em larga escala de próxima geração. (3) Por meio de uma análise abrangente, investigamos o impacto da engenharia de prompts no colapso do treinamento sintético e revelamos limitações nas métricas convencionais de detecção de colapso usando perdas de validação. Nosso trabalho mostra que o MAGA pode expandir substancialmente conjuntos de dados de treinamento mantendo a qualidade, oferecendo um caminho confiável para escalonar modelos além das limitações de dados.

English

Despite the remarkable capabilities of large language models across various tasks, their continued scaling faces a critical challenge: the scarcity of high-quality pretraining data. While model architectures continue to evolve, the natural language data struggles to scale up. To tackle this bottleneck, we propose MAssive Genre-Audience~(MAGA) reformulation method, which systematic synthesizes diverse, contextually-rich pretraining data from existing corpus. This work makes three main contributions: (1) We propose MAGA reformulation method, a lightweight and scalable approach for pretraining corpus expansion, and build a 770B tokens MAGACorpus. (2) We evaluate MAGACorpus with different data budget scaling strategies, demonstrating consistent improvements across various model sizes (134M-13B), establishing the necessity for next-generation large-scale synthetic pretraining language models. (3) Through comprehensive analysis, we investigate prompt engineering's impact on synthetic training collapse and reveal limitations in conventional collapse detection metrics using validation losses. Our work shows that MAGA can substantially expand training datasets while maintaining quality, offering a reliably pathway for scaling models beyond data limitations.

MAGA: Reformulação Massiva de Gênero-Público para Expansão do Corpus de Pré-treinamento

MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion

Resumo

Support