PretrainZero: Verstärkendes aktives Vorabtrainieren
PretrainZero: Reinforcement Active Pretraining
December 3, 2025
papers.authors: Xingrun Xing, Zhiyuan Fan, Jie Lou, Guoqi Li, Jiajun Zhang, Debing Zhang
cs.AI
papers.abstract
Die Nachahmung menschlichen Verhaltens, um aktiv aus allgemeiner Erfahrung zu lernen und allgemeine künstliche Intelligenz zu erreichen, war schon immer ein menschlicher Traum. Jüngste auf Reinforcement Learning (RL) basierende Large-Thinking-Modelle zeigen beeindruckende fähigkeiten auf Expertenniveau, z.B. in Software und Mathematik, sind aber nach wie vor stark auf verifizierbare Belohnungen in spezifischen Domänen angewiesen, was ein erhebliches Nadelöhr für die Erweiterung der Leistungsgrenzen allgemeiner Denkfähigkeiten darstellt. In dieser Arbeit schlagen wir PretrainZero vor, einen Reinforcement Active Learning-Rahmen, der auf dem Vortrainingskorpus aufbaut, um RL von domänenspezifischem Nachtraining auf allgemeines Vortraining auszudehnen. PretrainZero zeichnet sich durch folgende Merkmale aus: 1) Aktives Vortraining: Inspiriert durch die Fähigkeit des aktiven Lernens beim Menschen, erlernt PretrainZero eine vereinheitlichte Reasoning-Policy, um aktiv sinnvolle und informative Inhalte aus dem Vortrainingskorpus zu identifizieren und diese Inhalte durch RL vorherzusagen. 2) Selbstüberwachtes Lernen: Ohne verifizierbare Labels, vortrainierte Belohnungsmodelle oder überwachtes Finetuning trainieren wir Reasoning-Modelle direkt auf Basis von 3- bis 30B-Basismodellen mit RL auf dem allgemeinen Wikipedia-Korpus, wodurch die Verifikationsdatenbarriere für allgemeines Reasoning signifikant durchbrochen wird. 3) Skalierbare Verifikation: Durch die Bewältigung zunehmend schwieriger maskierter Spannen verbessert PretrainZero substantiell die allgemeinen Denkfähigkeiten vortrainierter Basismodelle. Im Reinforcement-Vortraining verbessert PretrainZero Qwen3-4B-Base um 8,43, 5,96 bzw. 10,60 Punkte auf den MMLU-Pro-, SuperGPQA- und Mathematik-Durchschnitts-Benchmarks. Beim Nachtraining können die vortrainierten Modelle auch als Reasoning-Foundation-Modelle für nachgelagerte RLVR-Aufgaben dienen.
English
Mimicking human behavior to actively learning from general experience and achieve artificial general intelligence has always been a human dream. Recent reinforcement learning (RL) based large-thinking models demonstrate impressive expert-level abilities, i.e., software and math, but still rely heavily on verifiable rewards in specific domains, placing a significant bottleneck to extend the performance boundary of general reasoning capabilities. In this work, we propose PretrainZero, a reinforcement active learning framework built on the pretraining corpus to extend RL from domain-specific post-training to general pretraining. PretrainZero features the following characteristics: 1) Active pretraining: inspired by the active learning ability of humans, PretrainZero learns a unified reasoning policy to actively identify reasonable and informative contents from pretraining corpus, and reason to predict these contents by RL. 2) Self-supervised learning: without any verifiable labels, pretrained reward models, or supervised fine-tuning, we directly pretrain reasoners from 3 to 30B base models on the general Wikipedia corpus using RL, significantly breaking the verification data-wall for general reasoning. 3) Verification scaling: by tackling increasingly challenging masked spans, PretrainZero substantially enhances the general reasoning abilities of pretrained base models. In reinforcement pretraining, PretrainZero improves Qwen3-4B-Base for 8.43, 5.96 and 10.60 on MMLU-Pro, SuperGPQA and math average benchmarks. In post-training, the pretrained models can also serve as reasoning foundation models for downstream RLVR tasks.