Synthetisch gebootstrapte voorafgaande training
Synthetic bootstrapped pretraining
September 17, 2025
Auteurs: Zitong Yang, Aonan Zhang, Hong Liu, Tatsunori Hashimoto, Emmanuel Candès, Chong Wang, Ruoming Pang
cs.AI
Samenvatting
We introduceren Synthetic Bootstrapped Pretraining (SBP), een voorbereidingsprocedure voor taalmodellen (LM) die eerst een model leert van de relaties tussen documenten uit de voorbereidingsdataset en deze vervolgens benut om een uitgebreid nieuw corpus te synthetiseren voor gezamenlijke training. Terwijl standaard voorbereidingen LMs leren om causale correlaties tussen tokens binnen een enkel document te begrijpen, is deze niet ontworpen om de rijke, leerbare inter-documentcorrelaties efficiënt te modelleren die potentieel tot betere prestaties kunnen leiden. We valideren SBP door een rekenkundig afgestemde voorbereidingsopzet te ontwerpen en trainen een model met 3 miljard parameters vanaf nul op maximaal 1 biljoen tokens. We constateren dat SBP consistent verbetert ten opzichte van een sterke herhalingsbaseline en een aanzienlijk deel van de prestatieverbetering realiseert die haalbaar is met een orakel-upperbound die toegang heeft tot 20 keer meer unieke data. Kwalitatieve analyse toont aan dat de gesynthetiseerde documenten verder gaan dan louter parafraseringen – SBP abstraheert eerst een kernconcept uit het bronmateriaal en creëert vervolgens een nieuwe narratief daarop. Naast sterke empirische prestaties, laat SBP een natuurlijke Bayesiaanse interpretatie toe: de synthesizer leert impliciet om de latente concepten die tussen gerelateerde documenten worden gedeeld, te abstraheren.
English
We introduce Synthetic Bootstrapped Pretraining (SBP), a language model (LM)
pretraining procedure that first learns a model of relations between documents
from the pretraining dataset and then leverages it to synthesize a vast new
corpus for joint training. While the standard pretraining teaches LMs to learn
causal correlations among tokens within a single document, it is not designed
to efficiently model the rich, learnable inter-document correlations that can
potentially lead to better performance. We validate SBP by designing a
compute-matched pretraining setup and pretrain a 3B-parameter model on up to 1T
tokens from scratch. We find SBP consistently improves upon a strong repetition
baseline and delivers a significant fraction of performance improvement
attainable by an oracle upper bound with access to 20x more unique data.
Qualitative analysis reveals that the synthesized documents go beyond mere
paraphrases -- SBP first abstracts a core concept from the seed material and
then crafts a new narration on top of it. Besides strong empirical performance,
SBP admits a natural Bayesian interpretation: the synthesizer implicitly learns
to abstract the latent concepts shared between related documents.