ChatPaper.aiChatPaper

RePro: 웹 데이터를 충실히 재활용하여 언어 모델을 사전 학습시키기 위한 방법

RePro: Training Language Models to Faithfully Recycle the Web for Pretraining

October 12, 2025
저자: Zichun Yu, Chenyan Xiong
cs.AI

초록

고품질의 사전 학습 데이터는 대규모 언어 모델(LLM)의 화석 연료와 같지만, 최첨단 모델을 위한 이 자원은 점점 고갈되어 가고 있습니다. 본 논문에서는 상대적으로 작은 언어 모델(LM)을 강화 학습으로 훈련시켜 사전 학습 데이터의 효과적이고 충실한 재구성을 생성하는 새로운 웹 재활용 방법인 RePro를 소개합니다. 구체적으로, 우리는 하나의 품질 보상과 세 가지 충실도 보상을 설계하여 LM 재구성기가 유기적 데이터를 고품질의 재구성으로 변환하면서도 그 핵심 의미와 구조를 유지하도록 최적화했습니다. 실험에서는 4B 크기의 재구성기를 훈련시켜 DCLM-RefinedWeb에서 샘플링된 72B 토큰을 재활용했습니다. 400M 및 1.4B 모델에 대한 사전 학습 결과는 RePro가 22개의 다운스트림 작업에서 유기적 데이터만 사용한 베이스라인 대비 4.7%-14.0%의 상대적 정확도 향상을 제공함을 보여줍니다. RePro는 또한 70B 재구성기를 사용한 최신 웹 재활용 방법인 ReWire와 4배 더 큰 데이터 풀을 가진 유기적 데이터 베이스라인을 능가했습니다. 다양한 양의 재활용 데이터를 사용한 실험은 RePro가 유기적 데이터 효율성을 2-3배 향상시킨다는 것을 강조합니다. 개별 및 분포 분석은 RePro가 프롬프트 기반 방법에 비해 더 많은 중요한 정보를 보존하고 유기적 데이터의 특성을 충실히 반영함을 검증합니다. 이러한 결과들은 RePro가 LLM 사전 학습의 화석 연료를 효과적으로 활용하기 위한 효율적이고 제어 가능한 경로를 제공함을 보여줍니다. 우리는 코드, 재구성기, 재활용 데이터를 https://github.com/cxcscmu/RePro에서 오픈소스로 공개합니다.
English
High-quality pretraining data is the fossil fuel of large language models (LLMs), yet its reserves are running low for frontier models. In this paper, we introduce RePro, a novel web recycling method that trains a relatively small LM with reinforcement learning to generate effective and faithful rephrasings of pretraining data. Specifically, we design one quality reward and three faithfulness rewards, optimizing the LM rephraser to convert organic data into high-quality rephrasings while maintaining its core semantics and structure. In our experiment, we train a 4B rephraser to recycle 72B tokens sampled from DCLM-RefinedWeb. Pretraining results on 400M and 1.4B models demonstrate that RePro delivers 4.7%-14.0% relative accuracy gains over organic-only baseline on 22 downstream tasks. RePro also outperforms ReWire, the state-of-the-art web recycling method that prompts a 70B rephraser, as well as the organic baseline with a 4x larger data pool. Experiments with different amounts of recycled data highlight that RePro improves organic data efficiency by 2-3x. Individual and distributional analyses validate that RePro preserves more critical information and faithfully reflects the characteristics of organic data compared to prompting-based methods. Together, these results show that RePro provides an efficient and controllable path to effectively harness the fossil fuel of LLM pretraining. We open-source our code, rephraser, and recycled data at https://github.com/cxcscmu/RePro.
PDF42October 14, 2025