ChatPaper.aiChatPaper

Préentraînement par amorçage synthétique

Synthetic bootstrapped pretraining

September 17, 2025
papers.authors: Zitong Yang, Aonan Zhang, Hong Liu, Tatsunori Hashimoto, Emmanuel Candès, Chong Wang, Ruoming Pang
cs.AI

papers.abstract

Nous présentons le Synthetic Bootstrapped Pretraining (SBP), une procédure de pré-entraînement de modèles de langage (LM) qui apprend d'abord un modèle des relations entre les documents issus du jeu de données de pré-entraînement, puis l'exploite pour synthétiser un vaste nouveau corpus destiné à un entraînement conjoint. Alors que le pré-entraînement standard enseigne aux LM à apprendre des corrélations causales entre les tokens au sein d'un seul document, il n'est pas conçu pour modéliser efficacement les riches corrélations inter-documents, pourtant apprenables, qui pourraient potentiellement conduire à de meilleures performances. Nous validons SBP en concevant un dispositif de pré-entraînement à calcul équivalent et pré-entraînons un modèle de 3 milliards de paramètres sur jusqu'à 1 000 milliards de tokens à partir de zéro. Nous constatons que SBP améliore systématiquement une base de référence forte basée sur la répétition et apporte une fraction significative de l'amélioration de performance accessible par une borne supérieure oracle ayant accès à 20 fois plus de données uniques. Une analyse qualitative révèle que les documents synthétisés vont au-delà de simples paraphrases : SBP abstrait d'abord un concept central à partir du matériel source, puis construit une nouvelle narration autour de celui-ci. Outre des performances empiriques solides, SBP admet une interprétation bayésienne naturelle : le synthétiseur apprend implicitement à abstraire les concepts latents partagés entre les documents apparentés.
English
We introduce Synthetic Bootstrapped Pretraining (SBP), a language model (LM) pretraining procedure that first learns a model of relations between documents from the pretraining dataset and then leverages it to synthesize a vast new corpus for joint training. While the standard pretraining teaches LMs to learn causal correlations among tokens within a single document, it is not designed to efficiently model the rich, learnable inter-document correlations that can potentially lead to better performance. We validate SBP by designing a compute-matched pretraining setup and pretrain a 3B-parameter model on up to 1T tokens from scratch. We find SBP consistently improves upon a strong repetition baseline and delivers a significant fraction of performance improvement attainable by an oracle upper bound with access to 20x more unique data. Qualitative analysis reveals that the synthesized documents go beyond mere paraphrases -- SBP first abstracts a core concept from the seed material and then crafts a new narration on top of it. Besides strong empirical performance, SBP admits a natural Bayesian interpretation: the synthesizer implicitly learns to abstract the latent concepts shared between related documents.
PDF82September 23, 2025