ChatPaper.aiChatPaper

Preallenamento con bootstrapping sintetico

Synthetic bootstrapped pretraining

September 17, 2025
Autori: Zitong Yang, Aonan Zhang, Hong Liu, Tatsunori Hashimoto, Emmanuel Candès, Chong Wang, Ruoming Pang
cs.AI

Abstract

Introduciamo il Synthetic Bootstrapped Pretraining (SBP), una procedura di pre-addestramento per modelli linguistici (LM) che prima apprende un modello delle relazioni tra i documenti del dataset di pre-addestramento e poi lo sfrutta per sintetizzare un vasto nuovo corpus per l'addestramento congiunto. Mentre il pre-addestramento standard insegna ai LM a apprendere correlazioni causali tra token all'interno di un singolo documento, non è progettato per modellare in modo efficiente le ricche e apprendibili correlazioni inter-documento che potenzialmente possono portare a prestazioni migliori. Validiamo SBP progettando un setup di pre-addestramento con calcolo bilanciato e pre-addestriamo un modello da 3 miliardi di parametri su fino a 1 trilione di token da zero. Troviamo che SBP migliora costantemente rispetto a una solida baseline di ripetizione e fornisce una frazione significativa del miglioramento delle prestazioni raggiungibile da un limite superiore oracolare con accesso a 20 volte più dati unici. L'analisi qualitativa rivela che i documenti sintetizzati vanno oltre le semplici parafrasi: SBP prima astrae un concetto centrale dal materiale di partenza e poi costruisce una nuova narrazione su di esso. Oltre a forti prestazioni empiriche, SBP ammette una naturale interpretazione bayesiana: il sintetizzatore apprende implicitamente ad astrarre i concetti latenti condivisi tra documenti correlati.
English
We introduce Synthetic Bootstrapped Pretraining (SBP), a language model (LM) pretraining procedure that first learns a model of relations between documents from the pretraining dataset and then leverages it to synthesize a vast new corpus for joint training. While the standard pretraining teaches LMs to learn causal correlations among tokens within a single document, it is not designed to efficiently model the rich, learnable inter-document correlations that can potentially lead to better performance. We validate SBP by designing a compute-matched pretraining setup and pretrain a 3B-parameter model on up to 1T tokens from scratch. We find SBP consistently improves upon a strong repetition baseline and delivers a significant fraction of performance improvement attainable by an oracle upper bound with access to 20x more unique data. Qualitative analysis reveals that the synthesized documents go beyond mere paraphrases -- SBP first abstracts a core concept from the seed material and then crafts a new narration on top of it. Besides strong empirical performance, SBP admits a natural Bayesian interpretation: the synthesizer implicitly learns to abstract the latent concepts shared between related documents.
PDF82September 23, 2025