ChatPaper.aiChatPaper

PretrainZero: 강화 학습 기반 능동 프리트레이닝

PretrainZero: Reinforcement Active Pretraining

December 3, 2025
저자: Xingrun Xing, Zhiyuan Fan, Jie Lou, Guoqi Li, Jiajun Zhang, Debing Zhang
cs.AI

초록

인간의 행동을 모방하여 일반적인 경험으로부터 능동적으로 학습하고 인공 일반 지능(AGI)을 달성하는 것은 항상 인간의 꿈이었습니다. 최근 강화학습(RL) 기반 대규모 사고 모델들은 소프트웨어 및 수학 같은 특정 영역에서 인상적인 전문가 수준의 능력을 보여주지만, 여전히 특정 도메인의 검증 가능한 보상에 크게 의존하여 일반적인 추론 능력의 성능 한계를 확장하는 데 상당한 병목 현상을 초래하고 있습니다. 본 연구에서는 프리트레인 코퍼스 위에 구축된 강화 능동 학습 프레임워크인 PretrainZero를 제안하여 RL을 도메인 특화 사후 훈련에서 일반적인 프리트레인으로 확장합니다. PretrainZero는 다음과 같은 특징을 가집니다: 1) 능동적 프리트레인: 인간의 능동 학습 능력에서 영감을 받아 PretrainZero는 통합 추론 정책을 학습하여 프리트레인 코퍼스에서 합리적이고 유익한 콘텐츠를 능동적으로 식별하고, 이를 RL로 예측하기 위해 추론합니다. 2) 자기 지도 학습: 검증 가능한 레이블, 사전 훈련된 보상 모델 또는 지도 미세 조정 없이, 우리는 RL을 사용하여 일반 Wikipedia 코퍼스에서 3B에서 30B 기반 모델까지 리저너를 직접 프리트레인하여 일반 추론을 위한 검증 데이터 장벽을 크게 극복합니다. 3) 검증 스케일링: 점점 더 어려워지는 마스크된 스팬을 해결함으로써, PretrainZero는 프리트레인된 기반 모델의 일반 추론 능력을 실질적으로 향상시킵니다. 강화 프리트레인에서 PretrainZero는 Qwen3-4B-Base 모델의 MMLU-Pro, SuperGPQA 및 수학 평균 벤치마크에서 각각 8.43, 5.96, 10.60 점을 향상시켰습니다. 사후 훈련에서 프리트레인된 모델은 하류 RLVR 작업을 위한 추론 기반 모델로도 사용될 수 있습니다.
English
Mimicking human behavior to actively learning from general experience and achieve artificial general intelligence has always been a human dream. Recent reinforcement learning (RL) based large-thinking models demonstrate impressive expert-level abilities, i.e., software and math, but still rely heavily on verifiable rewards in specific domains, placing a significant bottleneck to extend the performance boundary of general reasoning capabilities. In this work, we propose PretrainZero, a reinforcement active learning framework built on the pretraining corpus to extend RL from domain-specific post-training to general pretraining. PretrainZero features the following characteristics: 1) Active pretraining: inspired by the active learning ability of humans, PretrainZero learns a unified reasoning policy to actively identify reasonable and informative contents from pretraining corpus, and reason to predict these contents by RL. 2) Self-supervised learning: without any verifiable labels, pretrained reward models, or supervised fine-tuning, we directly pretrain reasoners from 3 to 30B base models on the general Wikipedia corpus using RL, significantly breaking the verification data-wall for general reasoning. 3) Verification scaling: by tackling increasingly challenging masked spans, PretrainZero substantially enhances the general reasoning abilities of pretrained base models. In reinforcement pretraining, PretrainZero improves Qwen3-4B-Base for 8.43, 5.96 and 10.60 on MMLU-Pro, SuperGPQA and math average benchmarks. In post-training, the pretrained models can also serve as reasoning foundation models for downstream RLVR tasks.
PDF261December 5, 2025