PretrainZero: Активное претренинг-обучение с подкреплением
PretrainZero: Reinforcement Active Pretraining
December 3, 2025
Авторы: Xingrun Xing, Zhiyuan Fan, Jie Lou, Guoqi Li, Jiajun Zhang, Debing Zhang
cs.AI
Аннотация
Имитация человеческого поведения для активного обучения на основе общего опыта и достижения искусственного общего интеллекта всегда была мечтой человечества. Современные большие модели мышления на основе обучения с подкреплением демонстрируют впечатляющие способности на уровне экспертов, например, в области программного обеспечения и математики, но все еще сильно зависят от верифицируемых вознаграждений в конкретных областях, что создает значительное узкое место для расширения границ производительности общих рассуждающих способностей. В данной работе мы предлагаем PretrainZero — фреймворк активного обучения с подкреплением, построенный на корпусе предварительного обучения, чтобы распространить ОП с доменно-специфичного пост-обучения на общее предварительное обучение. PretrainZero обладает следующими характеристиками: 1) Активное предварительное обучение: вдохновленные способностью человека к активному обучению, мы обучаем единую политику рассуждений для активного выявления разумного и информативного контента из корпуса предварительного обучения и прогнозирования этого контента с помощью ОП. 2) Самообучение без учителя: без каких-либо верифицируемых меток, предобученных моделей вознаграждения или контролируемой тонкой настройки мы напрямую предварительно обучаем модели рассуждений от базовых моделей размером от 3 до 30B на общем корпусе Wikipedia с использованием ОП, существенно преодолевая стену верификационных данных для общего рассуждения. 3) Масштабирование верификации: решая все более сложные маскированные участки, PretrainZero значительно усиливает общие рассуждающие способности предварительно обученных базовых моделей. При обучении с подкреплением PretrainZero улучшает показатели Qwen3-4B-Base на 8.43, 5.96 и 10.60 по бенчмаркам MMLU-Pro, SuperGPQA и усредненному математическому соответственно. При пост-обучении предобученные модели также могут служить фундаментальными моделями рассуждений для последующих задач RLVR.
English
Mimicking human behavior to actively learning from general experience and achieve artificial general intelligence has always been a human dream. Recent reinforcement learning (RL) based large-thinking models demonstrate impressive expert-level abilities, i.e., software and math, but still rely heavily on verifiable rewards in specific domains, placing a significant bottleneck to extend the performance boundary of general reasoning capabilities. In this work, we propose PretrainZero, a reinforcement active learning framework built on the pretraining corpus to extend RL from domain-specific post-training to general pretraining. PretrainZero features the following characteristics: 1) Active pretraining: inspired by the active learning ability of humans, PretrainZero learns a unified reasoning policy to actively identify reasonable and informative contents from pretraining corpus, and reason to predict these contents by RL. 2) Self-supervised learning: without any verifiable labels, pretrained reward models, or supervised fine-tuning, we directly pretrain reasoners from 3 to 30B base models on the general Wikipedia corpus using RL, significantly breaking the verification data-wall for general reasoning. 3) Verification scaling: by tackling increasingly challenging masked spans, PretrainZero substantially enhances the general reasoning abilities of pretrained base models. In reinforcement pretraining, PretrainZero improves Qwen3-4B-Base for 8.43, 5.96 and 10.60 on MMLU-Pro, SuperGPQA and math average benchmarks. In post-training, the pretrained models can also serve as reasoning foundation models for downstream RLVR tasks.