RePro: Taalmodellen trainen om het web op betrouwbare wijze te recycleren voor voorafgaande training
RePro: Training Language Models to Faithfully Recycle the Web for Pretraining
October 12, 2025
Auteurs: Zichun Yu, Chenyan Xiong
cs.AI
Samenvatting
Hoogwaardige pretrainingsdata is de fossiele brandstof van grote taalmodel-
len (LLM's), maar de reserves ervan raken uitgeput voor de meest geavanceerde
modellen. In dit artikel introduceren we RePro, een nieuwe web-recyclingmethode
die een relatief klein taalmodel traint met reinforcement learning om effectieve
en betrouwbare herformuleringen van pretrainingsdata te genereren. Specifiek
ontwerpen we één kwaliteitsbeloning en drie betrouwbaarheidsbeloningen, waarbij
we het taalmodel optimaliseren om organische data om te zetten in hoogwaardige
herformuleringen terwijl de kernsemantiek en structuur behouden blijven. In ons
experiment trainen we een 4B-herformuleringsmodel om 72B tokens te recyclen die
zijn bemonsterd uit DCLM-RefinedWeb. Pretrainingsresultaten op 400M en 1.4B
modellen laten zien dat RePro een relatieve nauwkeurigheidsverbetering van
4,7%-14,0% oplevert ten opzichte van een baseline met alleen organische data op
22 downstream taken. RePro presteert ook beter dan ReWire, de state-of-the-art
web-recyclingmethode die een 70B-herformuleringsmodel aanstuurt, evenals de
organische baseline met een 4x grotere datapool. Experimenten met verschillende
hoeveelheden gerecyclede data benadrukken dat RePro de efficiëntie van organische
data met 2-3x verbetert. Individuele en distributieanalyses valideren dat RePro
meer kritieke informatie behoudt en de kenmerken van organische data
betrouwbaarder weerspiegelt in vergelijking met op prompting gebaseerde methoden.
Samen tonen deze resultaten aan dat RePro een efficiënte en controleerbare weg
biedt om de fossiele brandstof van LLM-pretraining effectief te benutten. We
maken onze code, het herformuleringsmodel en de gerecyclede data openbaar op
https://github.com/cxcscmu/RePro.
English
High-quality pretraining data is the fossil fuel of large language models
(LLMs), yet its reserves are running low for frontier models. In this paper, we
introduce RePro, a novel web recycling method that trains a relatively small LM
with reinforcement learning to generate effective and faithful rephrasings of
pretraining data. Specifically, we design one quality reward and three
faithfulness rewards, optimizing the LM rephraser to convert organic data into
high-quality rephrasings while maintaining its core semantics and structure. In
our experiment, we train a 4B rephraser to recycle 72B tokens sampled from
DCLM-RefinedWeb. Pretraining results on 400M and 1.4B models demonstrate that
RePro delivers 4.7%-14.0% relative accuracy gains over organic-only baseline on
22 downstream tasks. RePro also outperforms ReWire, the state-of-the-art web
recycling method that prompts a 70B rephraser, as well as the organic baseline
with a 4x larger data pool. Experiments with different amounts of recycled data
highlight that RePro improves organic data efficiency by 2-3x. Individual and
distributional analyses validate that RePro preserves more critical information
and faithfully reflects the characteristics of organic data compared to
prompting-based methods. Together, these results show that RePro provides an
efficient and controllable path to effectively harness the fossil fuel of LLM
pretraining. We open-source our code, rephraser, and recycled data at
https://github.com/cxcscmu/RePro.