ChatPaper.aiChatPaper

RePro: ウェブを忠実に再利用するための言語モデルの事前学習

RePro: Training Language Models to Faithfully Recycle the Web for Pretraining

October 12, 2025
著者: Zichun Yu, Chenyan Xiong
cs.AI

要旨

高品質な事前学習データは大規模言語モデル(LLM)の化石燃料とも言えるが、最先端モデルにとってその埋蔵量は減少しつつある。本論文では、ReProという新しいウェブリサイクル手法を紹介する。この手法では、比較的小規模な言語モデルを強化学習を用いて訓練し、事前学習データの効果的かつ忠実な言い換えを生成する。具体的には、1つの品質報酬と3つの忠実性報酬を設計し、有機データを高品質な言い換えに変換しながらその核心的な意味と構造を維持するようLM言い換え器を最適化する。実験では、4Bの言い換え器を訓練し、DCLM-RefinedWebからサンプリングした72Bトークンをリサイクルした。400Mおよび1.4Bモデルでの事前学習結果は、ReProが22の下流タスクにおいて有機データのみのベースラインに対して4.7%-14.0%の相対的な精度向上をもたらすことを示している。ReProはまた、70Bの言い換え器を用いた最先端のウェブリサイクル手法であるReWireや、4倍大きなデータプールを持つ有機データベースラインをも上回る性能を示した。異なる量のリサイクルデータを用いた実験では、ReProが有機データの効率を2-3倍向上させることが明らかになった。個別および分布的分析により、ReProがプロンプトベースの手法と比較してより重要な情報を保持し、有機データの特性を忠実に反映していることが検証された。これらの結果は、ReProがLLM事前学習の化石燃料を効果的に活用するための効率的で制御可能な道筋を提供することを示している。我々はコード、言い換え器、およびリサイクルデータをhttps://github.com/cxcscmu/ReProで公開している。
English
High-quality pretraining data is the fossil fuel of large language models (LLMs), yet its reserves are running low for frontier models. In this paper, we introduce RePro, a novel web recycling method that trains a relatively small LM with reinforcement learning to generate effective and faithful rephrasings of pretraining data. Specifically, we design one quality reward and three faithfulness rewards, optimizing the LM rephraser to convert organic data into high-quality rephrasings while maintaining its core semantics and structure. In our experiment, we train a 4B rephraser to recycle 72B tokens sampled from DCLM-RefinedWeb. Pretraining results on 400M and 1.4B models demonstrate that RePro delivers 4.7%-14.0% relative accuracy gains over organic-only baseline on 22 downstream tasks. RePro also outperforms ReWire, the state-of-the-art web recycling method that prompts a 70B rephraser, as well as the organic baseline with a 4x larger data pool. Experiments with different amounts of recycled data highlight that RePro improves organic data efficiency by 2-3x. Individual and distributional analyses validate that RePro preserves more critical information and faithfully reflects the characteristics of organic data compared to prompting-based methods. Together, these results show that RePro provides an efficient and controllable path to effectively harness the fossil fuel of LLM pretraining. We open-source our code, rephraser, and recycled data at https://github.com/cxcscmu/RePro.
PDF42October 14, 2025