Pré-treinamento com bootstrapping sintético
Synthetic bootstrapped pretraining
September 17, 2025
Autores: Zitong Yang, Aonan Zhang, Hong Liu, Tatsunori Hashimoto, Emmanuel Candès, Chong Wang, Ruoming Pang
cs.AI
Resumo
Apresentamos o Pré-treinamento com Inicialização Sintética (SBP, do inglês Synthetic Bootstrapped Pretraining), um procedimento de pré-treinamento para modelos de linguagem (LM) que primeiro aprende um modelo de relações entre documentos do conjunto de dados de pré-treinamento e, em seguida, o utiliza para sintetizar um vasto novo corpus para treinamento conjunto. Enquanto o pré-treinamento padrão ensina os LMs a aprender correlações causais entre tokens dentro de um único documento, ele não foi projetado para modelar de forma eficiente as ricas e aprendíveis correlações interdocumentos que podem potencialmente levar a um melhor desempenho. Validamos o SBP ao projetar uma configuração de pré-treinamento com uso de computação equivalente e pré-treinamos um modelo de 3 bilhões de parâmetros com até 1 trilhão de tokens do zero. Descobrimos que o SBP melhora consistentemente uma linha de base forte de repetição e entrega uma fração significativa da melhoria de desempenho alcançável por um limite superior oráculo com acesso a 20 vezes mais dados únicos. A análise qualitativa revela que os documentos sintetizados vão além de meras paráfrases — o SBP primeiro abstrai um conceito central do material de origem e, em seguida, cria uma nova narrativa sobre ele. Além do forte desempenho empírico, o SBP admite uma interpretação bayesiana natural: o sintetizador aprende implicitamente a abstrair os conceitos latentes compartilhados entre documentos relacionados.
English
We introduce Synthetic Bootstrapped Pretraining (SBP), a language model (LM)
pretraining procedure that first learns a model of relations between documents
from the pretraining dataset and then leverages it to synthesize a vast new
corpus for joint training. While the standard pretraining teaches LMs to learn
causal correlations among tokens within a single document, it is not designed
to efficiently model the rich, learnable inter-document correlations that can
potentially lead to better performance. We validate SBP by designing a
compute-matched pretraining setup and pretrain a 3B-parameter model on up to 1T
tokens from scratch. We find SBP consistently improves upon a strong repetition
baseline and delivers a significant fraction of performance improvement
attainable by an oracle upper bound with access to 20x more unique data.
Qualitative analysis reveals that the synthesized documents go beyond mere
paraphrases -- SBP first abstracts a core concept from the seed material and
then crafts a new narration on top of it. Besides strong empirical performance,
SBP admits a natural Bayesian interpretation: the synthesizer implicitly learns
to abstract the latent concepts shared between related documents.