BeyondWeb: Lessen uit het schalen van synthetische data voor pretraining op triljoenschaal

Samenvatting

Recente ontwikkelingen in het vooraf trainen van grote taalmodellen (LLM) hebben aangetoond dat het simpelweg opschalen van de hoeveelheid data uiteindelijk leidt tot afnemende meeropbrengsten, waarbij een data-muur wordt bereikt. Als reactie hierop is het gebruik van synthetische data voor vooraf trainen naar voren gekomen als een veelbelovend paradigma om de grenzen van prestaties te verleggen. Desondanks zijn de factoren die de kwaliteit van synthetische data beïnvloeden nog steeds slecht begrepen. In dit werk introduceren we BeyondWeb, een raamwerk voor het genereren van synthetische data dat hoogwaardige synthetische data produceert voor vooraf trainen. BeyondWeb breidt de mogelijkheden van traditionele web-schaal datasets aanzienlijk uit en overtreft state-of-the-art synthetische vooraf train-datasets zoals Cosmopedia en de hoogwaardige synthetische subset van Nemotron-CC (Nemotron-Synth) met respectievelijk tot 5,1 procentpunten (pp) en 2,6 pp, gemiddeld over een reeks van 14 benchmark-evaluaties. Het levert tot 7,7x snellere training dan open web-data en 2,7x sneller dan Nemotron-Synth. Opmerkelijk is dat een 3B-model dat getraind is voor 180B tokens op BeyondWeb een 8B-model overtreft dat getraind is voor hetzelfde tokenbudget op Cosmopedia. We presenteren ook verschillende inzichten van BeyondWeb over synthetische data voor vooraf trainen: wat de voordelen drijft, welke data herschreven moet worden en hoe, en de impact van modelgrootte en -familie op de data-kwaliteit. Over het algemeen laat ons werk zien dat er geen wondermiddel is voor het genereren van hoogwaardige synthetische vooraf train-data. De beste resultaten vereisen het gezamenlijk optimaliseren van vele factoren, een uitdagende taak die rigoureuze wetenschap en praktische expertise vereist. Naïeve benaderingen kunnen bescheiden verbeteringen opleveren, mogelijk tegen hoge kosten, terwijl goed uitgevoerde methoden transformerende verbeteringen kunnen opleveren, zoals geïllustreerd door BeyondWeb.

English

Recent advances in large language model (LLM) pretraining have shown that simply scaling data quantity eventually leads to diminishing returns, hitting a data wall. In response, the use of synthetic data for pretraining has emerged as a promising paradigm for pushing the frontier of performance. Despite this, the factors affecting synthetic data quality remain poorly understood. In this work, we introduce BeyondWeb, a synthetic data generation framework that produces high-quality synthetic data for pretraining. BeyondWeb significantly extends the capabilities of traditional web-scale datasets, outperforming state-of-the-art synthetic pretraining datasets such as Cosmopedia and Nemotron-CC's high-quality synthetic subset (Nemotron-Synth) by up to 5.1 percentage points (pp) and 2.6pp, respectively, when averaged across a suite of 14 benchmark evaluations. It delivers up to 7.7x faster training than open web data and 2.7x faster than Nemotron-Synth. Remarkably, a 3B model trained for 180B tokens on BeyondWeb outperforms an 8B model trained for the same token budget on Cosmopedia. We also present several insights from BeyondWeb on synthetic data for pretraining: what drives its benefits, which data to rephrase and how, and the impact of model size and family on data quality. Overall, our work shows that there's no silver bullet for generating high-quality synthetic pretraining data. The best outcomes require jointly optimizing many factors, a challenging task that requires rigorous science and practical expertise. Naive approaches can yield modest improvements, potentially at great cost, while well-executed methods can yield transformative improvements, as exemplified by BeyondWeb.

BeyondWeb: Lessen uit het schalen van synthetische data voor pretraining op triljoenschaal

BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining

Samenvatting

Support