PretrainZero: Pré-treinamento Ativo por Reforço

Resumo

Imitar o comportamento humano para aprender ativamente a partir da experiência geral e alcançar a inteligência artificial geral sempre foi um sonho da humanidade. Modelos de pensamento em larga escala baseados em aprendizagem por reforço (RL) recentes demonstram capacidades impressionantes de nível especialista, por exemplo, em software e matemática, mas ainda dependem fortemente de recompensas verificáveis em domínios específicos, criando um gargalo significativo para estender a fronteira de desempenho das capacidades de raciocínio geral. Neste trabalho, propomos o PretrainZero, uma estrutura de aprendizagem ativa por reforço construída sobre o corpus de pré-treinamento para estender a RL do pós-treinamento específico de domínio para o pré-treinamento geral. O PretrainZero apresenta as seguintes características: 1) Pré-treinamento ativo: inspirado pela capacidade de aprendizagem ativa dos humanos, o PretrainZero aprende uma política de raciocínio unificada para identificar ativamente conteúdos razoáveis e informativos do corpus de pré-treinamento, e raciocina para prever esses conteúdos via RL. 2) Aprendizagem auto-supervisionada: sem quaisquer rótulos verificáveis, modelos de recompensa pré-treinados ou ajuste fino supervisionado, pré-treinamos diretamente os sistemas de raciocínio a partir de modelos base de 3 a 30B no corpus geral da Wikipedia usando RL, quebrando significativamente a barreira de dados de verificação para o raciocínio geral. 3) Escalonamento de verificação: ao enfrentar *spans* mascarados progressivamente mais desafiadores, o PretrainZero aumenta substancialmente as capacidades de raciocínio geral dos modelos base pré-treinados. No pré-treinamento por reforço, o PretrainZero melhora o Qwen3-4B-Base em 8,43, 5,96 e 10,60 nos benchmarks MMLU-Pro, SuperGPQA e média de matemática, respectivamente. No pós-treinamento, os modelos pré-treinados também podem servir como modelos base de raciocínio para tarefas downstream de RLVR.

English

Mimicking human behavior to actively learning from general experience and achieve artificial general intelligence has always been a human dream. Recent reinforcement learning (RL) based large-thinking models demonstrate impressive expert-level abilities, i.e., software and math, but still rely heavily on verifiable rewards in specific domains, placing a significant bottleneck to extend the performance boundary of general reasoning capabilities. In this work, we propose PretrainZero, a reinforcement active learning framework built on the pretraining corpus to extend RL from domain-specific post-training to general pretraining. PretrainZero features the following characteristics: 1) Active pretraining: inspired by the active learning ability of humans, PretrainZero learns a unified reasoning policy to actively identify reasonable and informative contents from pretraining corpus, and reason to predict these contents by RL. 2) Self-supervised learning: without any verifiable labels, pretrained reward models, or supervised fine-tuning, we directly pretrain reasoners from 3 to 30B base models on the general Wikipedia corpus using RL, significantly breaking the verification data-wall for general reasoning. 3) Verification scaling: by tackling increasingly challenging masked spans, PretrainZero substantially enhances the general reasoning abilities of pretrained base models. In reinforcement pretraining, PretrainZero improves Qwen3-4B-Base for 8.43, 5.96 and 10.60 on MMLU-Pro, SuperGPQA and math average benchmarks. In post-training, the pretrained models can also serve as reasoning foundation models for downstream RLVR tasks.

PretrainZero: Pré-treinamento Ativo por Reforço

PretrainZero: Reinforcement Active Pretraining

Resumo

Support