RePro: Entrenamiento de modelos de lenguaje para reciclar fielmente la web en el preentrenamiento
RePro: Training Language Models to Faithfully Recycle the Web for Pretraining
October 12, 2025
Autores: Zichun Yu, Chenyan Xiong
cs.AI
Resumen
Los datos de preentrenamiento de alta calidad son el combustible fósil de los modelos de lenguaje grandes (LLMs), pero sus reservas se están agotando para los modelos de vanguardia. En este artículo, presentamos RePro, un método novedoso de reciclaje web que entrena un modelo de lenguaje relativamente pequeño con aprendizaje por refuerzo para generar reformulaciones efectivas y fieles de los datos de preentrenamiento. Específicamente, diseñamos una recompensa de calidad y tres recompensas de fidelidad, optimizando el reformulador de lenguaje para convertir datos orgánicos en reformulaciones de alta calidad mientras se mantiene su semántica y estructura central. En nuestro experimento, entrenamos un reformulador de 4B para reciclar 72B tokens muestreados de DCLM-RefinedWeb. Los resultados de preentrenamiento en modelos de 400M y 1.4B demuestran que RePro ofrece ganancias de precisión relativas del 4.7% al 14.0% sobre la línea base que solo utiliza datos orgánicos en 22 tareas posteriores. RePro también supera a ReWire, el método de reciclaje web más avanzado que utiliza un reformulador de 70B, así como a la línea base orgánica con un conjunto de datos 4 veces mayor. Los experimentos con diferentes cantidades de datos reciclados destacan que RePro mejora la eficiencia de los datos orgánicos en 2-3 veces. Los análisis individuales y distribucionales validan que RePro preserva más información crítica y refleja fielmente las características de los datos orgánicos en comparación con los métodos basados en indicaciones. En conjunto, estos resultados muestran que RePro proporciona una ruta eficiente y controlable para aprovechar eficazmente el combustible fósil del preentrenamiento de LLM. Hemos puesto a disposición nuestro código, reformulador y datos reciclados en https://github.com/cxcscmu/RePro.
English
High-quality pretraining data is the fossil fuel of large language models
(LLMs), yet its reserves are running low for frontier models. In this paper, we
introduce RePro, a novel web recycling method that trains a relatively small LM
with reinforcement learning to generate effective and faithful rephrasings of
pretraining data. Specifically, we design one quality reward and three
faithfulness rewards, optimizing the LM rephraser to convert organic data into
high-quality rephrasings while maintaining its core semantics and structure. In
our experiment, we train a 4B rephraser to recycle 72B tokens sampled from
DCLM-RefinedWeb. Pretraining results on 400M and 1.4B models demonstrate that
RePro delivers 4.7%-14.0% relative accuracy gains over organic-only baseline on
22 downstream tasks. RePro also outperforms ReWire, the state-of-the-art web
recycling method that prompts a 70B rephraser, as well as the organic baseline
with a 4x larger data pool. Experiments with different amounts of recycled data
highlight that RePro improves organic data efficiency by 2-3x. Individual and
distributional analyses validate that RePro preserves more critical information
and faithfully reflects the characteristics of organic data compared to
prompting-based methods. Together, these results show that RePro provides an
efficient and controllable path to effectively harness the fossil fuel of LLM
pretraining. We open-source our code, rephraser, and recycled data at
https://github.com/cxcscmu/RePro.