RePro: Treinando Modelos de Linguagem para Reciclar Fielmente a Web para Pré-treinamento
RePro: Training Language Models to Faithfully Recycle the Web for Pretraining
October 12, 2025
Autores: Zichun Yu, Chenyan Xiong
cs.AI
Resumo
Dados de pré-treinamento de alta qualidade são o combustível fóssil dos grandes modelos de linguagem (LLMs), mas suas reservas estão se esgotando para os modelos de ponta. Neste artigo, apresentamos o RePro, um método inovador de reciclagem da web que treina um modelo de linguagem relativamente pequeno com aprendizado por reforço para gerar reformulações eficazes e fiéis de dados de pré-treinamento. Especificamente, projetamos uma recompensa de qualidade e três recompensas de fidelidade, otimizando o reformulador de LM para converter dados orgânicos em reformulações de alta qualidade, mantendo sua semântica e estrutura principais. Em nosso experimento, treinamos um reformulador de 4B para reciclar 72B tokens amostrados do DCLM-RefinedWeb. Os resultados de pré-treinamento em modelos de 400M e 1.4B demonstram que o RePro proporciona ganhos de precisão relativos de 4,7% a 14,0% em relação à linha de base apenas orgânica em 22 tarefas subsequentes. O RePro também supera o ReWire, o método de reciclagem da web mais avançado que solicita um reformulador de 70B, bem como a linha de base orgânica com um pool de dados 4 vezes maior. Experimentos com diferentes quantidades de dados reciclados destacam que o RePro melhora a eficiência dos dados orgânicos em 2-3 vezes. Análises individuais e distribucionais validam que o RePro preserva mais informações críticas e reflete fielmente as características dos dados orgânicos em comparação com métodos baseados em solicitação. Juntos, esses resultados mostram que o RePro fornece um caminho eficiente e controlável para aproveitar efetivamente o combustível fóssil do pré-treinamento de LLM. Disponibilizamos nosso código, reformulador e dados reciclados em https://github.com/cxcscmu/RePro.
English
High-quality pretraining data is the fossil fuel of large language models
(LLMs), yet its reserves are running low for frontier models. In this paper, we
introduce RePro, a novel web recycling method that trains a relatively small LM
with reinforcement learning to generate effective and faithful rephrasings of
pretraining data. Specifically, we design one quality reward and three
faithfulness rewards, optimizing the LM rephraser to convert organic data into
high-quality rephrasings while maintaining its core semantics and structure. In
our experiment, we train a 4B rephraser to recycle 72B tokens sampled from
DCLM-RefinedWeb. Pretraining results on 400M and 1.4B models demonstrate that
RePro delivers 4.7%-14.0% relative accuracy gains over organic-only baseline on
22 downstream tasks. RePro also outperforms ReWire, the state-of-the-art web
recycling method that prompts a 70B rephraser, as well as the organic baseline
with a 4x larger data pool. Experiments with different amounts of recycled data
highlight that RePro improves organic data efficiency by 2-3x. Individual and
distributional analyses validate that RePro preserves more critical information
and faithfully reflects the characteristics of organic data compared to
prompting-based methods. Together, these results show that RePro provides an
efficient and controllable path to effectively harness the fossil fuel of LLM
pretraining. We open-source our code, rephraser, and recycled data at
https://github.com/cxcscmu/RePro.