ChatPaper.aiChatPaper

RePro: Training von Sprachmodellen zur zuverlässigen Wiederverwendung des Webs für das Vortraining

RePro: Training Language Models to Faithfully Recycle the Web for Pretraining

October 12, 2025
papers.authors: Zichun Yu, Chenyan Xiong
cs.AI

papers.abstract

Hochwertige Vortrainingsdaten sind der fossile Brennstoff großer Sprachmodelle (LLMs), doch ihre Reserven schwinden für Spitzenmodelle. In diesem Artikel stellen wir RePro vor, eine neuartige Methode zum Web-Recycling, die ein relativ kleines Sprachmodell (LM) mit Verstärkungslernen trainiert, um effektive und treue Umformulierungen von Vortrainingsdaten zu generieren. Konkret entwerfen wir eine Qualitätsbelohnung und drei Treuebelohnungen, um das LM-Umformulierungsmodell zu optimieren, organische Daten in hochwertige Umformulierungen umzuwandeln, während deren Kernsemantik und Struktur erhalten bleiben. In unserem Experiment trainieren wir einen 4B-Umformulierer, um 72B Token aus DCLM-RefinedWeb zu recyceln. Die Vortrainingsergebnisse für 400M- und 1.4B-Modelle zeigen, dass RePro im Vergleich zu einem rein organischen Baseline-Modell relative Genauigkeitssteigerungen von 4,7 % bis 14,0 % bei 22 nachgelagerten Aufgaben erzielt. RePro übertrifft auch ReWire, die derzeit beste Web-Recycling-Methode, die einen 70B-Umformulierer anstößt, sowie die organische Baseline mit einem 4-mal größeren Datenpool. Experimente mit unterschiedlichen Mengen recycelter Daten verdeutlichen, dass RePro die Effizienz organischer Daten um das 2- bis 3-fache verbessert. Einzelne und verteilungsbezogene Analysen bestätigen, dass RePro im Vergleich zu anstoßbasierten Methoden mehr kritische Informationen bewahrt und die Eigenschaften organischer Daten treuer widerspiegelt. Zusammengenommen zeigen diese Ergebnisse, dass RePro einen effizienten und kontrollierbaren Weg bietet, um den fossilen Brennstoff des LLM-Vortrainings effektiv zu nutzen. Wir stellen unseren Code, den Umformulierer und die recycelten Daten unter https://github.com/cxcscmu/RePro als Open-Source zur Verfügung.
English
High-quality pretraining data is the fossil fuel of large language models (LLMs), yet its reserves are running low for frontier models. In this paper, we introduce RePro, a novel web recycling method that trains a relatively small LM with reinforcement learning to generate effective and faithful rephrasings of pretraining data. Specifically, we design one quality reward and three faithfulness rewards, optimizing the LM rephraser to convert organic data into high-quality rephrasings while maintaining its core semantics and structure. In our experiment, we train a 4B rephraser to recycle 72B tokens sampled from DCLM-RefinedWeb. Pretraining results on 400M and 1.4B models demonstrate that RePro delivers 4.7%-14.0% relative accuracy gains over organic-only baseline on 22 downstream tasks. RePro also outperforms ReWire, the state-of-the-art web recycling method that prompts a 70B rephraser, as well as the organic baseline with a 4x larger data pool. Experiments with different amounts of recycled data highlight that RePro improves organic data efficiency by 2-3x. Individual and distributional analyses validate that RePro preserves more critical information and faithfully reflects the characteristics of organic data compared to prompting-based methods. Together, these results show that RePro provides an efficient and controllable path to effectively harness the fossil fuel of LLM pretraining. We open-source our code, rephraser, and recycled data at https://github.com/cxcscmu/RePro.
PDF42October 14, 2025