ChatPaper.aiChatPaper

Синтетическая предварительная подготовка с использованием бутстрэппинга

Synthetic bootstrapped pretraining

September 17, 2025
Авторы: Zitong Yang, Aonan Zhang, Hong Liu, Tatsunori Hashimoto, Emmanuel Candès, Chong Wang, Ruoming Pang
cs.AI

Аннотация

Мы представляем Synthetic Bootstrapped Pretraining (SBP) — процедуру предварительного обучения языковой модели (LM), которая сначала изучает модель отношений между документами из набора данных для предобучения, а затем использует её для синтеза нового обширного корпуса для совместного обучения. В то время как стандартное предобучение учит LM изучать причинно-следственные связи между токенами в пределах одного документа, оно не предназначено для эффективного моделирования богатых, обучаемых междокументных корреляций, которые потенциально могут привести к улучшению производительности. Мы проверяем SBP, разрабатывая вычислительно сопоставимую настройку предобучения и предобучаем модель с 3 миллиардами параметров на до 1 триллиона токенов с нуля. Мы обнаруживаем, что SBP последовательно улучшает результаты по сравнению с сильным базовым уровнем повторения и обеспечивает значительную долю улучшения производительности, достижимого с помощью верхней границы оракула, имеющего доступ к 20-кратно большему количеству уникальных данных. Качественный анализ показывает, что синтезированные документы выходят за рамки простого перефразирования — SBP сначала абстрагирует основную концепцию из исходного материала, а затем создаёт новое повествование на её основе. Помимо сильной эмпирической производительности, SBP допускает естественную байесовскую интерпретацию: синтезатор неявно учится абстрагировать скрытые концепции, общие для связанных документов.
English
We introduce Synthetic Bootstrapped Pretraining (SBP), a language model (LM) pretraining procedure that first learns a model of relations between documents from the pretraining dataset and then leverages it to synthesize a vast new corpus for joint training. While the standard pretraining teaches LMs to learn causal correlations among tokens within a single document, it is not designed to efficiently model the rich, learnable inter-document correlations that can potentially lead to better performance. We validate SBP by designing a compute-matched pretraining setup and pretrain a 3B-parameter model on up to 1T tokens from scratch. We find SBP consistently improves upon a strong repetition baseline and delivers a significant fraction of performance improvement attainable by an oracle upper bound with access to 20x more unique data. Qualitative analysis reveals that the synthesized documents go beyond mere paraphrases -- SBP first abstracts a core concept from the seed material and then crafts a new narration on top of it. Besides strong empirical performance, SBP admits a natural Bayesian interpretation: the synthesizer implicitly learns to abstract the latent concepts shared between related documents.
PDF82September 23, 2025