ChatPaper.aiChatPaper

PretrainZero : Prétraitement Actif par Renforcement

PretrainZero: Reinforcement Active Pretraining

December 3, 2025
papers.authors: Xingrun Xing, Zhiyuan Fan, Jie Lou, Guoqi Li, Jiajun Zhang, Debing Zhang
cs.AI

papers.abstract

Imiter le comportement humain pour apprendre activement de l'expérience générale et réaliser l'intelligence artificielle générale a toujours été un rêve humain. Les modèles récents de raisonnement à grande échelle basés sur l'apprentissage par renforcement (RL) démontrent des capacités impressionnantes de niveau expert, par exemple en informatique et en mathématiques, mais reposent encore largement sur des récompenses vérifiables dans des domaines spécifiques, créant un goulot d'étranglement important pour étendre les limites des capacités de raisonnement général. Dans ce travail, nous proposons PretrainZero, un cadre d'apprentissage actif par renforcement construit sur un corpus de pré-entraînement pour étendre le RL du post-entraînement spécifique à un domaine au pré-entraînement général. PretrainZero présente les caractéristiques suivantes : 1) Pré-entraînement actif : s'inspirant de la capacité d'apprentissage actif des humains, PretrainZero apprend une politique de raisonnement unifiée pour identifier activement des contenus pertinents et informatifs dans le corpus de pré-entraînement, et raisonne pour prédire ces contenus via le RL. 2) Apprentissage auto-supervisé : sans aucune étiquette vérifiable, modèle de récompense pré-entraîné ou ajustement fin supervisé, nous pré-entraînons directement des raisonneurs à partir de modèles de base de 3 à 30B sur le corpus général de Wikipédia en utilisant le RL, brisant ainsi significativement le mur des données de vérification pour le raisonnement général. 3) Mise à l'échelle par la vérification : en s'attaquant à des segments masqués de plus en plus difficiles, PretrainZero améliore substantiellement les capacités de raisonnement général des modèles de base pré-entraînés. Lors du pré-entraînement par renforcement, PretrainZero améliore Qwen3-4B-Base de 8,43, 5,96 et 10,60 points respectivement sur les benchmarks MMLU-Pro, SuperGPQA et la moyenne mathématique. En post-entraînement, les modèles pré-entraînés peuvent également servir de modèles de fondation pour le raisonnement dans des tâches RLVR en aval.
English
Mimicking human behavior to actively learning from general experience and achieve artificial general intelligence has always been a human dream. Recent reinforcement learning (RL) based large-thinking models demonstrate impressive expert-level abilities, i.e., software and math, but still rely heavily on verifiable rewards in specific domains, placing a significant bottleneck to extend the performance boundary of general reasoning capabilities. In this work, we propose PretrainZero, a reinforcement active learning framework built on the pretraining corpus to extend RL from domain-specific post-training to general pretraining. PretrainZero features the following characteristics: 1) Active pretraining: inspired by the active learning ability of humans, PretrainZero learns a unified reasoning policy to actively identify reasonable and informative contents from pretraining corpus, and reason to predict these contents by RL. 2) Self-supervised learning: without any verifiable labels, pretrained reward models, or supervised fine-tuning, we directly pretrain reasoners from 3 to 30B base models on the general Wikipedia corpus using RL, significantly breaking the verification data-wall for general reasoning. 3) Verification scaling: by tackling increasingly challenging masked spans, PretrainZero substantially enhances the general reasoning abilities of pretrained base models. In reinforcement pretraining, PretrainZero improves Qwen3-4B-Base for 8.43, 5.96 and 10.60 on MMLU-Pro, SuperGPQA and math average benchmarks. In post-training, the pretrained models can also serve as reasoning foundation models for downstream RLVR tasks.
PDF261December 5, 2025