RePro: Addestramento di Modelli Linguistici per Riciclare Fedelmente il Web per il Pretraining
RePro: Training Language Models to Faithfully Recycle the Web for Pretraining
October 12, 2025
Autori: Zichun Yu, Chenyan Xiong
cs.AI
Abstract
I dati di pre-addestramento di alta qualità sono il combustibile fossile dei grandi modelli linguistici (LLM), ma le loro riserve si stanno esaurendo per i modelli all'avanguardia. In questo articolo, introduciamo RePro, un nuovo metodo di riciclaggio web che addestra un modello linguistico relativamente piccolo con apprendimento per rinforzo per generare riformulazioni efficaci e fedeli dei dati di pre-addestramento. Nello specifico, progettiamo una ricompensa per la qualità e tre ricompense per la fedeltà, ottimizzando il modello linguistico riformulatore per convertire dati organici in riformulazioni di alta qualità mantenendone la semantica e la struttura principali. Nel nostro esperimento, addestriamo un riformulatore da 4B per riciclare 72B token campionati da DCLM-RefinedWeb. I risultati del pre-addestramento su modelli da 400M e 1.4B dimostrano che RePro fornisce un miglioramento relativo dell'accuratezza del 4.7%-14.0% rispetto alla baseline con soli dati organici su 22 task downstream. RePro supera anche ReWire, il metodo di riciclaggio web all'avanguardia che utilizza un riformulatore da 70B, così come la baseline con dati organici con un pool di dati 4 volte più grande. Esperimenti con diverse quantità di dati riciclati evidenziano che RePro migliora l'efficienza dei dati organici di 2-3 volte. Analisi individuali e distribuzionali confermano che RePro preserva più informazioni critiche e riflette fedelmente le caratteristiche dei dati organici rispetto ai metodi basati su prompt. Insieme, questi risultati mostrano che RePro fornisce un percorso efficiente e controllabile per sfruttare efficacemente il combustibile fossile del pre-addestramento degli LLM. Rendiamo disponibili il nostro codice, il riformulatore e i dati riciclati all'indirizzo https://github.com/cxcscmu/RePro.
English
High-quality pretraining data is the fossil fuel of large language models
(LLMs), yet its reserves are running low for frontier models. In this paper, we
introduce RePro, a novel web recycling method that trains a relatively small LM
with reinforcement learning to generate effective and faithful rephrasings of
pretraining data. Specifically, we design one quality reward and three
faithfulness rewards, optimizing the LM rephraser to convert organic data into
high-quality rephrasings while maintaining its core semantics and structure. In
our experiment, we train a 4B rephraser to recycle 72B tokens sampled from
DCLM-RefinedWeb. Pretraining results on 400M and 1.4B models demonstrate that
RePro delivers 4.7%-14.0% relative accuracy gains over organic-only baseline on
22 downstream tasks. RePro also outperforms ReWire, the state-of-the-art web
recycling method that prompts a 70B rephraser, as well as the organic baseline
with a 4x larger data pool. Experiments with different amounts of recycled data
highlight that RePro improves organic data efficiency by 2-3x. Individual and
distributional analyses validate that RePro preserves more critical information
and faithfully reflects the characteristics of organic data compared to
prompting-based methods. Together, these results show that RePro provides an
efficient and controllable path to effectively harness the fossil fuel of LLM
pretraining. We open-source our code, rephraser, and recycled data at
https://github.com/cxcscmu/RePro.