ChatPaper.aiChatPaper

RePro : Entraîner des modèles de langage à recycler fidèlement le web pour le prétraitement

RePro: Training Language Models to Faithfully Recycle the Web for Pretraining

October 12, 2025
papers.authors: Zichun Yu, Chenyan Xiong
cs.AI

papers.abstract

Les données de pré-entraînement de haute qualité constituent le carburant fossile des grands modèles de langage (LLM), mais leurs réserves s'épuisent pour les modèles de pointe. Dans cet article, nous présentons RePro, une méthode novatrice de recyclage web qui entraîne un modèle de langage relativement petit avec de l'apprentissage par renforcement pour générer des reformulations efficaces et fidèles des données de pré-entraînement. Plus précisément, nous concevons une récompense de qualité et trois récompenses de fidélité, optimisant le modèle de reformulation pour convertir les données organiques en reformulations de haute qualité tout en conservant leur sémantique et leur structure principales. Dans notre expérience, nous entraînons un modèle de reformulation de 4 milliards de paramètres pour recycler 72 milliards de tokens échantillonnés à partir de DCLM-RefinedWeb. Les résultats de pré-entraînement sur des modèles de 400 millions et 1,4 milliard de paramètres montrent que RePro offre des gains de précision relatifs de 4,7 % à 14,0 % par rapport à un modèle de base utilisant uniquement des données organiques sur 22 tâches en aval. RePro surpasse également ReWire, la méthode de recyclage web de pointe qui utilise un modèle de reformulation de 70 milliards de paramètres, ainsi que le modèle de base avec un pool de données quatre fois plus grand. Les expériences avec différentes quantités de données recyclées mettent en évidence que RePro améliore l'efficacité des données organiques d'un facteur 2 à 3. Des analyses individuelles et distributionnelles confirment que RePro préserve davantage d'informations critiques et reflète fidèlement les caractéristiques des données organiques par rapport aux méthodes basées sur l'incitation. Ensemble, ces résultats montrent que RePro offre une voie efficace et contrôlable pour exploiter judicieusement le carburant fossile du pré-entraînement des LLM. Nous mettons à disposition notre code, notre modèle de reformulation et nos données recyclées à l'adresse https://github.com/cxcscmu/RePro.
English
High-quality pretraining data is the fossil fuel of large language models (LLMs), yet its reserves are running low for frontier models. In this paper, we introduce RePro, a novel web recycling method that trains a relatively small LM with reinforcement learning to generate effective and faithful rephrasings of pretraining data. Specifically, we design one quality reward and three faithfulness rewards, optimizing the LM rephraser to convert organic data into high-quality rephrasings while maintaining its core semantics and structure. In our experiment, we train a 4B rephraser to recycle 72B tokens sampled from DCLM-RefinedWeb. Pretraining results on 400M and 1.4B models demonstrate that RePro delivers 4.7%-14.0% relative accuracy gains over organic-only baseline on 22 downstream tasks. RePro also outperforms ReWire, the state-of-the-art web recycling method that prompts a 70B rephraser, as well as the organic baseline with a 4x larger data pool. Experiments with different amounts of recycled data highlight that RePro improves organic data efficiency by 2-3x. Individual and distributional analyses validate that RePro preserves more critical information and faithfully reflects the characteristics of organic data compared to prompting-based methods. Together, these results show that RePro provides an efficient and controllable path to effectively harness the fossil fuel of LLM pretraining. We open-source our code, rephraser, and recycled data at https://github.com/cxcscmu/RePro.
PDF42October 14, 2025