ChatPaper.aiChatPaper

Synthetisches Bootstrapping-Pretraining

Synthetic bootstrapped pretraining

September 17, 2025
papers.authors: Zitong Yang, Aonan Zhang, Hong Liu, Tatsunori Hashimoto, Emmanuel Candès, Chong Wang, Ruoming Pang
cs.AI

papers.abstract

Wir stellen Synthetic Bootstrapped Pretraining (SBP) vor, ein Verfahren zur Vorabschulung von Sprachmodellen (LM), das zunächst ein Modell der Beziehungen zwischen Dokumenten aus dem Vorabschulungsdatensatz erlernt und dieses dann nutzt, um ein umfangreiches neues Korpus für das gemeinsame Training zu synthetisieren. Während die Standardvorabschulung LMs beibringt, kausale Zusammenhänge zwischen Tokens innerhalb eines einzelnen Dokuments zu lernen, ist sie nicht darauf ausgelegt, die reichen, lernbaren Korrelationen zwischen Dokumenten effizient zu modellieren, die potenziell zu einer besseren Leistung führen können. Wir validieren SBP, indem wir eine rechenleistungsangepasste Vorabschulungsumgebung entwerfen und ein 3-Milliarden-Parameter-Modell von Grund auf mit bis zu 1 Billion Tokens vorabschulen. Wir stellen fest, dass SBP durchgehend eine starke Wiederholungsbaseline verbessert und einen signifikanten Anteil der Leistungsverbesserung erreicht, die durch eine Obergrenze mit Zugriff auf 20-mal mehr einzigartige Daten erzielbar ist. Qualitative Analysen zeigen, dass die synthetisierten Dokumente über bloße Paraphrasen hinausgehen – SBP abstrahiert zunächst ein Kernkonzept aus dem Ausgangsmaterial und entwickelt dann eine neue Erzählung darauf aufbauend. Neben der starken empirischen Leistung lässt SBP eine natürliche Bayes’sche Interpretation zu: Der Synthesizer lernt implizit, die latenten Konzepte zu abstrahieren, die zwischen verwandten Dokumenten geteilt werden.
English
We introduce Synthetic Bootstrapped Pretraining (SBP), a language model (LM) pretraining procedure that first learns a model of relations between documents from the pretraining dataset and then leverages it to synthesize a vast new corpus for joint training. While the standard pretraining teaches LMs to learn causal correlations among tokens within a single document, it is not designed to efficiently model the rich, learnable inter-document correlations that can potentially lead to better performance. We validate SBP by designing a compute-matched pretraining setup and pretrain a 3B-parameter model on up to 1T tokens from scratch. We find SBP consistently improves upon a strong repetition baseline and delivers a significant fraction of performance improvement attainable by an oracle upper bound with access to 20x more unique data. Qualitative analysis reveals that the synthesized documents go beyond mere paraphrases -- SBP first abstracts a core concept from the seed material and then crafts a new narration on top of it. Besides strong empirical performance, SBP admits a natural Bayesian interpretation: the synthesizer implicitly learns to abstract the latent concepts shared between related documents.
PDF82September 23, 2025