PretrainZero: Reinforcement Actief Vooraf Trainen
PretrainZero: Reinforcement Active Pretraining
December 3, 2025
Auteurs: Xingrun Xing, Zhiyuan Fan, Jie Lou, Guoqi Li, Jiajun Zhang, Debing Zhang
cs.AI
Samenvatting
Het nabootsen van menselijk gedrag om actief te leren uit algemene ervaringen en kunstmatige algemene intelligentie te bereiken, is altijd een menselijke droom geweest. Recente op reinforcement learning (RL) gebaseerde large-thinking modellen tonen indrukwekkende expertniveau-capaciteiten, bijvoorbeeld in software en wiskunde, maar zijn nog steeds sterk afhankelijk van verifieerbare beloningen in specifieke domeinen, wat een belangrijke bottleneck vormt om de prestatiegrens van algemeen redeneervermogen te verleggen. In dit werk stellen we PretrainZero voor, een reinforcement active learning-framework gebouwd op de pretrainingscorpus om RL uit te breiden van domeinspecifieke na-training naar algemene pretraining. PretrainZero kenmerkt zich door de volgende eigenschappen: 1) Actieve pretraining: geïnspireerd door het actieve leervermogen van mensen, leert PretrainZero een verenigd redeneerbeleid om actief redelijke en informatieve inhoud uit de pretrainingscorpus te identificeren en deze inhoud via RL te voorspellen. 2) Zelfsupervised leren: zonder verifieerbare labels, voorgetrainde beloningsmodellen of supervised fine-tuning, trainen we redeneerders direct pretrain van 3 tot 30B basismodellen op de algemene Wikipedia-corpus met RL, waardoor de verificatiedata-muur voor algemeen redeneren significant wordt doorbroken. 3) Verificatieschaling: door toenemend uitdagende gemaskeerde segmenten aan te pakken, verbetert PretrainZero de algemene redeneervermogens van voorgetrainde basismodellen aanzienlijk. In reinforcement pretraining verbetert PretrainZero Qwen3-4B-Base met 8,43, 5,96 en 10,60 op respectievelijk de MMLU-Pro, SuperGPQA en wiskunde-gemiddelde benchmarks. In na-training kunnen de voorgetrainde modellen ook dienen als redeneerfundamentmodellen voor downstream RLVR-taken.
English
Mimicking human behavior to actively learning from general experience and achieve artificial general intelligence has always been a human dream. Recent reinforcement learning (RL) based large-thinking models demonstrate impressive expert-level abilities, i.e., software and math, but still rely heavily on verifiable rewards in specific domains, placing a significant bottleneck to extend the performance boundary of general reasoning capabilities. In this work, we propose PretrainZero, a reinforcement active learning framework built on the pretraining corpus to extend RL from domain-specific post-training to general pretraining. PretrainZero features the following characteristics: 1) Active pretraining: inspired by the active learning ability of humans, PretrainZero learns a unified reasoning policy to actively identify reasonable and informative contents from pretraining corpus, and reason to predict these contents by RL. 2) Self-supervised learning: without any verifiable labels, pretrained reward models, or supervised fine-tuning, we directly pretrain reasoners from 3 to 30B base models on the general Wikipedia corpus using RL, significantly breaking the verification data-wall for general reasoning. 3) Verification scaling: by tackling increasingly challenging masked spans, PretrainZero substantially enhances the general reasoning abilities of pretrained base models. In reinforcement pretraining, PretrainZero improves Qwen3-4B-Base for 8.43, 5.96 and 10.60 on MMLU-Pro, SuperGPQA and math average benchmarks. In post-training, the pretrained models can also serve as reasoning foundation models for downstream RLVR tasks.