Pretrenamiento sintético con remuestreo bootstrap
Synthetic bootstrapped pretraining
September 17, 2025
Autores: Zitong Yang, Aonan Zhang, Hong Liu, Tatsunori Hashimoto, Emmanuel Candès, Chong Wang, Ruoming Pang
cs.AI
Resumen
Introducimos el Pretrenamiento con Arranque Sintético (SBP, por sus siglas en inglés), un procedimiento de pretrenamiento para modelos de lenguaje (LM) que primero aprende un modelo de relaciones entre documentos del conjunto de datos de pretrenamiento y luego lo aprovecha para sintetizar un vasto nuevo corpus para entrenamiento conjunto. Mientras que el pretrenamiento estándar enseña a los LM a aprender correlaciones causales entre tokens dentro de un solo documento, no está diseñado para modelar eficientemente las ricas y aprendibles correlaciones interdocumentales que podrían potencialmente conducir a un mejor rendimiento. Validamos SBP diseñando una configuración de pretrenamiento equiparada en términos de cómputo y preentrenamos un modelo de 3 mil millones de parámetros desde cero con hasta 1 billón de tokens. Encontramos que SBP mejora consistentemente una línea base fuerte de repetición y proporciona una fracción significativa de la mejora de rendimiento alcanzable por un límite superior oráculo con acceso a 20 veces más datos únicos. El análisis cualitativo revela que los documentos sintetizados van más allá de meras paráfrasis: SBP primero abstrae un concepto central del material de origen y luego elabora una nueva narración sobre él. Además de un fuerte rendimiento empírico, SBP admite una interpretación bayesiana natural: el sintetizador aprende implícitamente a abstraer los conceptos latentes compartidos entre documentos relacionados.
English
We introduce Synthetic Bootstrapped Pretraining (SBP), a language model (LM)
pretraining procedure that first learns a model of relations between documents
from the pretraining dataset and then leverages it to synthesize a vast new
corpus for joint training. While the standard pretraining teaches LMs to learn
causal correlations among tokens within a single document, it is not designed
to efficiently model the rich, learnable inter-document correlations that can
potentially lead to better performance. We validate SBP by designing a
compute-matched pretraining setup and pretrain a 3B-parameter model on up to 1T
tokens from scratch. We find SBP consistently improves upon a strong repetition
baseline and delivers a significant fraction of performance improvement
attainable by an oracle upper bound with access to 20x more unique data.
Qualitative analysis reveals that the synthesized documents go beyond mere
paraphrases -- SBP first abstracts a core concept from the seed material and
then crafts a new narration on top of it. Besides strong empirical performance,
SBP admits a natural Bayesian interpretation: the synthesizer implicitly learns
to abstract the latent concepts shared between related documents.