ChatPaper.aiChatPaper

Pré-treinamento com bootstrapping sintético

Synthetic bootstrapped pretraining

September 17, 2025
Autores: Zitong Yang, Aonan Zhang, Hong Liu, Tatsunori Hashimoto, Emmanuel Candès, Chong Wang, Ruoming Pang
cs.AI

Resumo

Apresentamos o Pré-treinamento com Inicialização Sintética (SBP, do inglês Synthetic Bootstrapped Pretraining), um procedimento de pré-treinamento para modelos de linguagem (LM) que primeiro aprende um modelo de relações entre documentos do conjunto de dados de pré-treinamento e, em seguida, o utiliza para sintetizar um vasto novo corpus para treinamento conjunto. Enquanto o pré-treinamento padrão ensina os LMs a aprender correlações causais entre tokens dentro de um único documento, ele não foi projetado para modelar de forma eficiente as ricas e aprendíveis correlações interdocumentos que podem potencialmente levar a um melhor desempenho. Validamos o SBP ao projetar uma configuração de pré-treinamento com uso de computação equivalente e pré-treinamos um modelo de 3 bilhões de parâmetros com até 1 trilhão de tokens do zero. Descobrimos que o SBP melhora consistentemente uma linha de base forte de repetição e entrega uma fração significativa da melhoria de desempenho alcançável por um limite superior oráculo com acesso a 20 vezes mais dados únicos. A análise qualitativa revela que os documentos sintetizados vão além de meras paráfrases — o SBP primeiro abstrai um conceito central do material de origem e, em seguida, cria uma nova narrativa sobre ele. Além do forte desempenho empírico, o SBP admite uma interpretação bayesiana natural: o sintetizador aprende implicitamente a abstrair os conceitos latentes compartilhados entre documentos relacionados.
English
We introduce Synthetic Bootstrapped Pretraining (SBP), a language model (LM) pretraining procedure that first learns a model of relations between documents from the pretraining dataset and then leverages it to synthesize a vast new corpus for joint training. While the standard pretraining teaches LMs to learn causal correlations among tokens within a single document, it is not designed to efficiently model the rich, learnable inter-document correlations that can potentially lead to better performance. We validate SBP by designing a compute-matched pretraining setup and pretrain a 3B-parameter model on up to 1T tokens from scratch. We find SBP consistently improves upon a strong repetition baseline and delivers a significant fraction of performance improvement attainable by an oracle upper bound with access to 20x more unique data. Qualitative analysis reveals that the synthesized documents go beyond mere paraphrases -- SBP first abstracts a core concept from the seed material and then crafts a new narration on top of it. Besides strong empirical performance, SBP admits a natural Bayesian interpretation: the synthesizer implicitly learns to abstract the latent concepts shared between related documents.
PDF82September 23, 2025