PretrainZero: Pretraining Attivo con Rinforzo
PretrainZero: Reinforcement Active Pretraining
December 3, 2025
Autori: Xingrun Xing, Zhiyuan Fan, Jie Lou, Guoqi Li, Jiajun Zhang, Debing Zhang
cs.AI
Abstract
Imitare il comportamento umano per apprendere attivamente dall'esperienza generale e raggiungere l'intelligenza artificiale generale è sempre stato un sogno dell'umanità. I recenti modelli a pensiero esteso basati sul reinforcement learning (RL) dimostrano impressionanti abilità di livello esperto, ad esempio nel software e nella matematica, ma dipendono ancora fortemente da ricompense verificabili in domini specifici, creando un significativo collo di bottiglia per estendere i confini delle capacità di ragionamento generale. In questo lavoro, proponiamo PretrainZero, un framework di apprendimento attivo per rinforzo costruito sul corpus di pre-addestramento per estendere l'RL dal post-addestramento dominio-specifico al pre-addestramento generale. PretrainZero presenta le seguenti caratteristiche: 1) Pre-addestramento attivo: ispirato dalla capacità di apprendimento attivo umano, PretrainZero apprende una politica di ragionamento unificata per identificare attivamente contenuti ragionevoli e informativi dal corpus di pre-addestramento, e ragionare per prevedere tali contenuti tramite RL. 2) Apprendimento auto-supervisionato: senza etichette verificabili, modelli di ricompensa pre-addestrati o fine-tuning supervisionato, pre-addestriamo direttamente i ragionatori partendo da modelli base da 3 a 30B sul corpus generale di Wikipedia utilizzando l'RL, superando significativamente la barriera dei dati di verifica per il ragionamento generale. 3) Scalabilità della verifica: affrontando span mascherati progressivamente più complessi, PretrainZero potenzia sostanzialmente le abilità di ragionamento generale dei modelli base pre-addestrati. Nel pre-addestramento per rinforzo, PretrainZero migliora Qwen3-4B-Base di 8.43, 5.96 e 10.60 rispettivamente sui benchmark MMLU-Pro, SuperGPQA e sulla media matematica. Nel post-addestramento, i modelli pre-addestrati possono fungere anche da modelli fondamento per il ragionamento in compiti downstream di RLVR.
English
Mimicking human behavior to actively learning from general experience and achieve artificial general intelligence has always been a human dream. Recent reinforcement learning (RL) based large-thinking models demonstrate impressive expert-level abilities, i.e., software and math, but still rely heavily on verifiable rewards in specific domains, placing a significant bottleneck to extend the performance boundary of general reasoning capabilities. In this work, we propose PretrainZero, a reinforcement active learning framework built on the pretraining corpus to extend RL from domain-specific post-training to general pretraining. PretrainZero features the following characteristics: 1) Active pretraining: inspired by the active learning ability of humans, PretrainZero learns a unified reasoning policy to actively identify reasonable and informative contents from pretraining corpus, and reason to predict these contents by RL. 2) Self-supervised learning: without any verifiable labels, pretrained reward models, or supervised fine-tuning, we directly pretrain reasoners from 3 to 30B base models on the general Wikipedia corpus using RL, significantly breaking the verification data-wall for general reasoning. 3) Verification scaling: by tackling increasingly challenging masked spans, PretrainZero substantially enhances the general reasoning abilities of pretrained base models. In reinforcement pretraining, PretrainZero improves Qwen3-4B-Base for 8.43, 5.96 and 10.60 on MMLU-Pro, SuperGPQA and math average benchmarks. In post-training, the pretrained models can also serve as reasoning foundation models for downstream RLVR tasks.