ChatPaper.aiChatPaper

PretrainZero: 強化学習による能動的事前学習

PretrainZero: Reinforcement Active Pretraining

December 3, 2025
著者: Xingrun Xing, Zhiyuan Fan, Jie Lou, Guoqi Li, Jiajun Zhang, Debing Zhang
cs.AI

要旨

人間の行動を模倣し、一般的な経験から能動的に学習することで人工汎用知能を実現することは、常に人類の夢でした。近年の強化学習(RL)ベースの大規模思考モデルは、ソフトウェアや数学などの専門家レベルの能力を示すものの、特定領域での検証可能な報酬に大きく依存しており、汎用的な推論能力の性能限界を拡張する上で重大なボトルネックとなっています。本研究では、事前学習コーパス上に構築された強化学習的能動学習フレームワークであるPretrainZeroを提案します。これはRLをドメイン特化的事後学習から汎用的な事前学習へ拡張するものです。PretrainZeroは以下の特徴を有します:1)能動的事前学習:人間の能動的学習能力に着想を得て、PretrainZeroは統一された推論方策を学習し、事前学習コーパスから合理的で情報量の多い内容を能動的に同定し、RLを用いてそれらの内容を予測するために推論します。2)自己教師あり学習:検証可能なラベルや事前学習済み報酬モデル、教師ありファインチューニングを一切用いず、一般的なWikipediaコーパスに対しRLを用いて3Bから30Bのベースモデルから直接推論器を事前学習し、汎用推論における検証データの壁を大幅に打破します。3)検証スケーリング:難易度を段階的に上げるマスクスパン課題に取り組むことで、PretrainZeroは事前学習済みベースモデルの汎用推論能力を大幅に強化します。強化学習的事前学習において、PretrainZeroはQwen3-4B-Baseモデルに対し、MMLU-Pro、SuperGPQA、数学平均ベンチマークでそれぞれ8.43、5.96、10.60の性能向上をもたらしました。事後学習においても、事前学習済みモデルは下流のRLVRタスクのための推論基盤モデルとして機能します。
English
Mimicking human behavior to actively learning from general experience and achieve artificial general intelligence has always been a human dream. Recent reinforcement learning (RL) based large-thinking models demonstrate impressive expert-level abilities, i.e., software and math, but still rely heavily on verifiable rewards in specific domains, placing a significant bottleneck to extend the performance boundary of general reasoning capabilities. In this work, we propose PretrainZero, a reinforcement active learning framework built on the pretraining corpus to extend RL from domain-specific post-training to general pretraining. PretrainZero features the following characteristics: 1) Active pretraining: inspired by the active learning ability of humans, PretrainZero learns a unified reasoning policy to actively identify reasonable and informative contents from pretraining corpus, and reason to predict these contents by RL. 2) Self-supervised learning: without any verifiable labels, pretrained reward models, or supervised fine-tuning, we directly pretrain reasoners from 3 to 30B base models on the general Wikipedia corpus using RL, significantly breaking the verification data-wall for general reasoning. 3) Verification scaling: by tackling increasingly challenging masked spans, PretrainZero substantially enhances the general reasoning abilities of pretrained base models. In reinforcement pretraining, PretrainZero improves Qwen3-4B-Base for 8.43, 5.96 and 10.60 on MMLU-Pro, SuperGPQA and math average benchmarks. In post-training, the pretrained models can also serve as reasoning foundation models for downstream RLVR tasks.
PDF261December 5, 2025