ChatPaper.aiChatPaper

BeyondWeb: 조조 규모 사전 학습을 위한 합성 데이터 확장에서 얻은 교훈

BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining

August 14, 2025
저자: Pratyush Maini, Vineeth Dorna, Parth Doshi, Aldo Carranza, Fan Pan, Jack Urbanek, Paul Burstein, Alex Fang, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Charvi Bannur, Christina Baek, Darren Teh, David Schwab, Haakon Mongstad, Haoli Yin, Josh Wills, Kaleigh Mentzer, Luke Merrick, Ricardo Monti, Rishabh Adiga, Siddharth Joshi, Spandan Das, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt
cs.AI

초록

대규모 언어 모델(LLM) 사전 학습의 최근 발전은 단순히 데이터 양을 확장하는 것이 결국에는 수익 체감을 일으켜 데이터 벽에 부딪힌다는 것을 보여주었다. 이에 대응하여, 성능의 한계를 넘어서기 위한 사전 학습용 합성 데이터 사용이 유망한 패러다임으로 부상했다. 그럼에도 불구하고, 합성 데이터 품질에 영향을 미치는 요소들은 여전히 잘 이해되지 않고 있다. 본 연구에서는 사전 학습을 위한 고품질 합성 데이터를 생성하는 BeyondWeb라는 합성 데이터 생성 프레임워크를 소개한다. BeyondWeb은 기존의 웹 규모 데이터셋의 기능을 크게 확장하여, Cosmopedia 및 Nemotron-CC의 고품질 합성 데이터셋(Nemotron-Synth)과 같은 최첨단 합성 사전 학습 데이터셋을 14개의 벤치마크 평가에서 평균적으로 각각 최대 5.1%포인트(pp) 및 2.6%포인트(pp) 앞질렀다. 또한, BeyondWeb은 오픈 웹 데이터보다 최대 7.7배 빠른 학습 속도를 제공하며, Nemotron-Synth보다는 2.7배 빠른 학습 속도를 보였다. 특히, BeyondWeb에서 180B 토큰으로 학습된 3B 모델은 동일한 토큰 예산으로 Cosmopedia에서 학습된 8B 모델을 능가했다. 우리는 또한 BeyondWeb을 통해 사전 학습용 합성 데이터에 대한 몇 가지 통찰을 제시한다: 그 이점을 이끄는 요소, 어떤 데이터를 어떻게 재구성할 것인지, 그리고 모델 크기와 계열이 데이터 품질에 미치는 영향 등이다. 전반적으로, 본 연구는 고품질 합성 사전 학습 데이터를 생성하기 위한 만능 해결책은 없음을 보여준다. 최상의 결과를 얻기 위해서는 많은 요소들을 공동으로 최적화해야 하며, 이는 엄격한 과학과 실용적인 전문 지식을 요구하는 도전적인 과제이다. 단순한 접근법은 상당한 비용을 들여도 겸손한 개선만을 가져올 수 있는 반면, BeyondWeb에서 보여준 것처럼 잘 실행된 방법은 혁신적인 개선을 가져올 수 있다.
English
Recent advances in large language model (LLM) pretraining have shown that simply scaling data quantity eventually leads to diminishing returns, hitting a data wall. In response, the use of synthetic data for pretraining has emerged as a promising paradigm for pushing the frontier of performance. Despite this, the factors affecting synthetic data quality remain poorly understood. In this work, we introduce BeyondWeb, a synthetic data generation framework that produces high-quality synthetic data for pretraining. BeyondWeb significantly extends the capabilities of traditional web-scale datasets, outperforming state-of-the-art synthetic pretraining datasets such as Cosmopedia and Nemotron-CC's high-quality synthetic subset (Nemotron-Synth) by up to 5.1 percentage points (pp) and 2.6pp, respectively, when averaged across a suite of 14 benchmark evaluations. It delivers up to 7.7x faster training than open web data and 2.7x faster than Nemotron-Synth. Remarkably, a 3B model trained for 180B tokens on BeyondWeb outperforms an 8B model trained for the same token budget on Cosmopedia. We also present several insights from BeyondWeb on synthetic data for pretraining: what drives its benefits, which data to rephrase and how, and the impact of model size and family on data quality. Overall, our work shows that there's no silver bullet for generating high-quality synthetic pretraining data. The best outcomes require jointly optimizing many factors, a challenging task that requires rigorous science and practical expertise. Naive approaches can yield modest improvements, potentially at great cost, while well-executed methods can yield transformative improvements, as exemplified by BeyondWeb.
PDF462August 18, 2025