RePro: 웹 데이터를 충실히 재활용하여 언어 모델을 사전 학습시키기 위한 방법
RePro: Training Language Models to Faithfully Recycle the Web for Pretraining
October 12, 2025
저자: Zichun Yu, Chenyan Xiong
cs.AI
초록
고품질의 사전 학습 데이터는 대규모 언어 모델(LLM)의 화석 연료와 같지만, 최첨단 모델을 위한 이 자원은 점점 고갈되어 가고 있습니다. 본 논문에서는 상대적으로 작은 언어 모델(LM)을 강화 학습으로 훈련시켜 사전 학습 데이터의 효과적이고 충실한 재구성을 생성하는 새로운 웹 재활용 방법인 RePro를 소개합니다. 구체적으로, 우리는 하나의 품질 보상과 세 가지 충실도 보상을 설계하여 LM 재구성기가 유기적 데이터를 고품질의 재구성으로 변환하면서도 그 핵심 의미와 구조를 유지하도록 최적화했습니다. 실험에서는 4B 크기의 재구성기를 훈련시켜 DCLM-RefinedWeb에서 샘플링된 72B 토큰을 재활용했습니다. 400M 및 1.4B 모델에 대한 사전 학습 결과는 RePro가 22개의 다운스트림 작업에서 유기적 데이터만 사용한 베이스라인 대비 4.7%-14.0%의 상대적 정확도 향상을 제공함을 보여줍니다. RePro는 또한 70B 재구성기를 사용한 최신 웹 재활용 방법인 ReWire와 4배 더 큰 데이터 풀을 가진 유기적 데이터 베이스라인을 능가했습니다. 다양한 양의 재활용 데이터를 사용한 실험은 RePro가 유기적 데이터 효율성을 2-3배 향상시킨다는 것을 강조합니다. 개별 및 분포 분석은 RePro가 프롬프트 기반 방법에 비해 더 많은 중요한 정보를 보존하고 유기적 데이터의 특성을 충실히 반영함을 검증합니다. 이러한 결과들은 RePro가 LLM 사전 학습의 화석 연료를 효과적으로 활용하기 위한 효율적이고 제어 가능한 경로를 제공함을 보여줍니다. 우리는 코드, 재구성기, 재활용 데이터를 https://github.com/cxcscmu/RePro에서 오픈소스로 공개합니다.
English
High-quality pretraining data is the fossil fuel of large language models
(LLMs), yet its reserves are running low for frontier models. In this paper, we
introduce RePro, a novel web recycling method that trains a relatively small LM
with reinforcement learning to generate effective and faithful rephrasings of
pretraining data. Specifically, we design one quality reward and three
faithfulness rewards, optimizing the LM rephraser to convert organic data into
high-quality rephrasings while maintaining its core semantics and structure. In
our experiment, we train a 4B rephraser to recycle 72B tokens sampled from
DCLM-RefinedWeb. Pretraining results on 400M and 1.4B models demonstrate that
RePro delivers 4.7%-14.0% relative accuracy gains over organic-only baseline on
22 downstream tasks. RePro also outperforms ReWire, the state-of-the-art web
recycling method that prompts a 70B rephraser, as well as the organic baseline
with a 4x larger data pool. Experiments with different amounts of recycled data
highlight that RePro improves organic data efficiency by 2-3x. Individual and
distributional analyses validate that RePro preserves more critical information
and faithfully reflects the characteristics of organic data compared to
prompting-based methods. Together, these results show that RePro provides an
efficient and controllable path to effectively harness the fossil fuel of LLM
pretraining. We open-source our code, rephraser, and recycled data at
https://github.com/cxcscmu/RePro.