BeyondWeb: Lessen uit het schalen van synthetische data voor pretraining op triljoenschaal
BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining
August 14, 2025
Auteurs: Pratyush Maini, Vineeth Dorna, Parth Doshi, Aldo Carranza, Fan Pan, Jack Urbanek, Paul Burstein, Alex Fang, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Charvi Bannur, Christina Baek, Darren Teh, David Schwab, Haakon Mongstad, Haoli Yin, Josh Wills, Kaleigh Mentzer, Luke Merrick, Ricardo Monti, Rishabh Adiga, Siddharth Joshi, Spandan Das, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt
cs.AI
Samenvatting
Recente ontwikkelingen in het vooraf trainen van grote taalmodellen (LLM) hebben aangetoond dat het simpelweg opschalen van de hoeveelheid data uiteindelijk leidt tot afnemende meeropbrengsten, waarbij een data-muur wordt bereikt. Als reactie hierop is het gebruik van synthetische data voor vooraf trainen naar voren gekomen als een veelbelovend paradigma om de grenzen van prestaties te verleggen. Desondanks zijn de factoren die de kwaliteit van synthetische data beïnvloeden nog steeds slecht begrepen. In dit werk introduceren we BeyondWeb, een raamwerk voor het genereren van synthetische data dat hoogwaardige synthetische data produceert voor vooraf trainen. BeyondWeb breidt de mogelijkheden van traditionele web-schaal datasets aanzienlijk uit en overtreft state-of-the-art synthetische vooraf train-datasets zoals Cosmopedia en de hoogwaardige synthetische subset van Nemotron-CC (Nemotron-Synth) met respectievelijk tot 5,1 procentpunten (pp) en 2,6 pp, gemiddeld over een reeks van 14 benchmark-evaluaties. Het levert tot 7,7x snellere training dan open web-data en 2,7x sneller dan Nemotron-Synth. Opmerkelijk is dat een 3B-model dat getraind is voor 180B tokens op BeyondWeb een 8B-model overtreft dat getraind is voor hetzelfde tokenbudget op Cosmopedia. We presenteren ook verschillende inzichten van BeyondWeb over synthetische data voor vooraf trainen: wat de voordelen drijft, welke data herschreven moet worden en hoe, en de impact van modelgrootte en -familie op de data-kwaliteit. Over het algemeen laat ons werk zien dat er geen wondermiddel is voor het genereren van hoogwaardige synthetische vooraf train-data. De beste resultaten vereisen het gezamenlijk optimaliseren van vele factoren, een uitdagende taak die rigoureuze wetenschap en praktische expertise vereist. Naïeve benaderingen kunnen bescheiden verbeteringen opleveren, mogelijk tegen hoge kosten, terwijl goed uitgevoerde methoden transformerende verbeteringen kunnen opleveren, zoals geïllustreerd door BeyondWeb.
English
Recent advances in large language model (LLM) pretraining have shown that
simply scaling data quantity eventually leads to diminishing returns, hitting a
data wall. In response, the use of synthetic data for pretraining has emerged
as a promising paradigm for pushing the frontier of performance. Despite this,
the factors affecting synthetic data quality remain poorly understood. In this
work, we introduce BeyondWeb, a synthetic data generation framework that
produces high-quality synthetic data for pretraining. BeyondWeb significantly
extends the capabilities of traditional web-scale datasets, outperforming
state-of-the-art synthetic pretraining datasets such as Cosmopedia and
Nemotron-CC's high-quality synthetic subset (Nemotron-Synth) by up to 5.1
percentage points (pp) and 2.6pp, respectively, when averaged across a suite of
14 benchmark evaluations. It delivers up to 7.7x faster training than open web
data and 2.7x faster than Nemotron-Synth. Remarkably, a 3B model trained for
180B tokens on BeyondWeb outperforms an 8B model trained for the same token
budget on Cosmopedia. We also present several insights from BeyondWeb on
synthetic data for pretraining: what drives its benefits, which data to
rephrase and how, and the impact of model size and family on data quality.
Overall, our work shows that there's no silver bullet for generating
high-quality synthetic pretraining data. The best outcomes require jointly
optimizing many factors, a challenging task that requires rigorous science and
practical expertise. Naive approaches can yield modest improvements,
potentially at great cost, while well-executed methods can yield transformative
improvements, as exemplified by BeyondWeb.