ChatPaper.aiChatPaper

MAGA: Массовая реформуляция жанра-аудитории для расширения корпуса предварительного обучения

MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion

February 6, 2025
Авторы: Xintong Hao, Ke Shen, Chenggang Li
cs.AI

Аннотация

Несмотря на замечательные возможности крупных языковых моделей в различных задачах, их дальнейшее масштабирование сталкивается с критическим вызовом: дефицитом высококачественных данных для предварительного обучения. В то время как архитектуры моделей продолжают развиваться, данные естественного языка испытывают трудности с масштабированием. Для решения этого узкого места мы предлагаем метод реформулирования MAssive Genre-Audience (MAGA), который систематически синтезирует разнообразные, контекстно насыщенные данные для предварительного обучения из существующего корпуса. Эта работа вносит три основных вклада: (1) Мы предлагаем метод реформулирования MAGA, легковесный и масштабируемый подход для расширения корпуса предварительного обучения и создаем корпус MAGACorpus объемом 770 миллиардов токенов. (2) Мы оцениваем корпус MAGACorpus с различными стратегиями масштабирования бюджета данных, демонстрируя последовательные улучшения при различных размерах моделей (134 миллиона - 13 миллиардов), устанавливая необходимость следующего поколения крупномасштабных синтетических моделей языка для предварительного обучения. (3) Через комплексный анализ мы исследуем влияние инженерии подсказок на коллапс синтетического обучения и выявляем ограничения в традиционных метриках обнаружения коллапса с использованием потерь на валидации. Наша работа показывает, что MAGA может значительно расширить обучающие наборы данных, сохраняя качество, предлагая надежный путь для масштабирования моделей за пределами ограничений данных.
English
Despite the remarkable capabilities of large language models across various tasks, their continued scaling faces a critical challenge: the scarcity of high-quality pretraining data. While model architectures continue to evolve, the natural language data struggles to scale up. To tackle this bottleneck, we propose MAssive Genre-Audience~(MAGA) reformulation method, which systematic synthesizes diverse, contextually-rich pretraining data from existing corpus. This work makes three main contributions: (1) We propose MAGA reformulation method, a lightweight and scalable approach for pretraining corpus expansion, and build a 770B tokens MAGACorpus. (2) We evaluate MAGACorpus with different data budget scaling strategies, demonstrating consistent improvements across various model sizes (134M-13B), establishing the necessity for next-generation large-scale synthetic pretraining language models. (3) Through comprehensive analysis, we investigate prompt engineering's impact on synthetic training collapse and reveal limitations in conventional collapse detection metrics using validation losses. Our work shows that MAGA can substantially expand training datasets while maintaining quality, offering a reliably pathway for scaling models beyond data limitations.

Summary

AI-Generated Summary

PDF222February 7, 2025