RePro: Обучение языковых моделей для достоверного повторного использования веб-контента в предобучении
RePro: Training Language Models to Faithfully Recycle the Web for Pretraining
October 12, 2025
Авторы: Zichun Yu, Chenyan Xiong
cs.AI
Аннотация
Высококачественные данные для предварительного обучения — это ископаемое топливо для больших языковых моделей (LLM), однако его запасы для передовых моделей истощаются. В данной статье мы представляем RePro — новый метод переработки веб-данных, который обучает относительно небольшую языковую модель с использованием обучения с подкреплением для генерации эффективных и точных перефразировок данных для предварительного обучения. В частности, мы разработали одну награду за качество и три награды за точность, оптимизируя модель-перефразировщик для преобразования исходных данных в высококачественные перефразировки с сохранением их основной семантики и структуры. В нашем эксперименте мы обучили 4-миллиардный перефразировщик для переработки 72 миллиардов токенов, взятых из DCLM-RefinedWeb. Результаты предварительного обучения на моделях с 400 миллионами и 1,4 миллиарда параметров показывают, что RePro обеспечивает относительное улучшение точности на 4,7%–14,0% по сравнению с базовым подходом, использующим только исходные данные, на 22 задачах. RePro также превосходит ReWire — современный метод переработки веб-данных, который использует 70-миллиардный перефразировщик, а также базовый подход с исходными данными, увеличенными в 4 раза. Эксперименты с различным объемом переработанных данных подчеркивают, что RePro повышает эффективность использования исходных данных в 2–3 раза. Индивидуальный и распределенный анализ подтверждает, что RePro сохраняет больше критически важной информации и точнее отражает характеристики исходных данных по сравнению с методами, основанными на запросах. В совокупности эти результаты демонстрируют, что RePro предоставляет эффективный и контролируемый путь для использования «ископаемого топлива» предварительного обучения LLM. Мы открываем исходный код, модель-перефразировщик и переработанные данные по адресу https://github.com/cxcscmu/RePro.
English
High-quality pretraining data is the fossil fuel of large language models
(LLMs), yet its reserves are running low for frontier models. In this paper, we
introduce RePro, a novel web recycling method that trains a relatively small LM
with reinforcement learning to generate effective and faithful rephrasings of
pretraining data. Specifically, we design one quality reward and three
faithfulness rewards, optimizing the LM rephraser to convert organic data into
high-quality rephrasings while maintaining its core semantics and structure. In
our experiment, we train a 4B rephraser to recycle 72B tokens sampled from
DCLM-RefinedWeb. Pretraining results on 400M and 1.4B models demonstrate that
RePro delivers 4.7%-14.0% relative accuracy gains over organic-only baseline on
22 downstream tasks. RePro also outperforms ReWire, the state-of-the-art web
recycling method that prompts a 70B rephraser, as well as the organic baseline
with a 4x larger data pool. Experiments with different amounts of recycled data
highlight that RePro improves organic data efficiency by 2-3x. Individual and
distributional analyses validate that RePro preserves more critical information
and faithfully reflects the characteristics of organic data compared to
prompting-based methods. Together, these results show that RePro provides an
efficient and controllable path to effectively harness the fossil fuel of LLM
pretraining. We open-source our code, rephraser, and recycled data at
https://github.com/cxcscmu/RePro.