PretrainZero: Pretraining Activo por Refuerzo
PretrainZero: Reinforcement Active Pretraining
December 3, 2025
Autores: Xingrun Xing, Zhiyuan Fan, Jie Lou, Guoqi Li, Jiajun Zhang, Debing Zhang
cs.AI
Resumen
Imitar el comportamiento humano para aprender activamente de la experiencia general y lograr la inteligencia artificial general siempre ha sido un sueño de la humanidad. Los modelos recientes de razonamiento a gran escala basados en aprendizaje por refuerzo (RL) demuestran capacidades impresionantes a nivel de experto en dominios como software y matemáticas, pero aún dependen en gran medida de recompensas verificables en dominios específicos, lo que supone un cuello de botella significativo para extender el límite de rendimiento de las capacidades de razonamiento general. En este trabajo, proponemos PretrainZero, un marco de aprendizaje activo por refuerzo construido sobre el corpus de preentrenamiento para extender el RL desde el post-entrenamiento específico de dominio al preentrenamiento general. PretrainZero presenta las siguientes características: 1) Preentrenamiento activo: inspirado por la capacidad de aprendizaje activo de los humanos, PretrainZero aprende una política de razonamiento unificada para identificar activamente contenidos razonables e informativos del corpus de preentrenamiento, y razonar para predecir estos contenidos mediante RL. 2) Aprendizaje auto-supervisado: sin etiquetas verificables, modelos de recompensa preentrenados o ajuste fino supervisado, preentrenamos directamente razonadores a partir de modelos base de 3 a 30B en el corpus general de Wikipedia usando RL, rompiendo significativamente la barrera de datos de verificación para el razonamiento general. 3) Escalado de verificación: al abordar spans enmascarados cada vez más desafiantes, PretrainZero mejora sustancialmente las capacidades de razonamiento general de los modelos base preentrenados. En el preentrenamiento por refuerzo, PretrainZero mejora Qwen3-4B-Base en 8.43, 5.96 y 10.60 puntos en los benchmarks MMLU-Pro, SuperGPQA y promedio matemático, respectivamente. En el post-entrenamiento, los modelos preentrenados también pueden servir como modelos base de razonamiento para tareas posteriores de RLVR.
English
Mimicking human behavior to actively learning from general experience and achieve artificial general intelligence has always been a human dream. Recent reinforcement learning (RL) based large-thinking models demonstrate impressive expert-level abilities, i.e., software and math, but still rely heavily on verifiable rewards in specific domains, placing a significant bottleneck to extend the performance boundary of general reasoning capabilities. In this work, we propose PretrainZero, a reinforcement active learning framework built on the pretraining corpus to extend RL from domain-specific post-training to general pretraining. PretrainZero features the following characteristics: 1) Active pretraining: inspired by the active learning ability of humans, PretrainZero learns a unified reasoning policy to actively identify reasonable and informative contents from pretraining corpus, and reason to predict these contents by RL. 2) Self-supervised learning: without any verifiable labels, pretrained reward models, or supervised fine-tuning, we directly pretrain reasoners from 3 to 30B base models on the general Wikipedia corpus using RL, significantly breaking the verification data-wall for general reasoning. 3) Verification scaling: by tackling increasingly challenging masked spans, PretrainZero substantially enhances the general reasoning abilities of pretrained base models. In reinforcement pretraining, PretrainZero improves Qwen3-4B-Base for 8.43, 5.96 and 10.60 on MMLU-Pro, SuperGPQA and math average benchmarks. In post-training, the pretrained models can also serve as reasoning foundation models for downstream RLVR tasks.