VibeThinker-3B: Erkundung der Grenzen des verifizierbaren Denkens in kleinen Sprachmodellen

Zusammenfassung

Dieser technische Bericht stellt VibeThinker-3B vor, ein kompaktes dichtes Modell mit 3 Milliarden Parametern, das entwickelt wurde, um zu untersuchen, wie weit verifizierbares Denken in einem streng kleinen Modellbereich vorangetrieben werden kann. Aufbauend auf dem Spectrum-to-Signal-Post-Training-Paradigma verbessern wir das Modell systematisch durch eine optimierte Pipeline, die curriculum-basiertes überwachtes Feintuning, Multi-Domänen-Verstärkungslernen und Offline-Selbstdestillation umfasst. Experimentelle Evaluierungen zeigen, dass VibeThinker-3B auf höchst anspruchsvollen verifizierbaren Aufgaben Leistungen auf Spitzenniveau erzielt. Insbesondere erreicht es eine Punktzahl von 94,3 auf AIME26 (verbessert auf 97,1 mit Anspruchslevel-Testzeit-Skalierung), einen 80,2 Pass@1 auf LiveCodeBench v6 und zeigt eine starke Out-of-Distribution-Generalisation mit einer Akzeptanzrate von 96,1 % auf aktuelle, ungesehene LeetCode-Wettbewerbe. Dies platziert es effektiv im Leistungsband erstklassiger Denksysteme, die Flaggschiffmodelle, die um Größenordnungen größer sind, wie DeepSeek V3.2, GLM-5 und Gemini 3 Pro, erreichen oder übertreffen. Darüber hinaus bestätigt eine Punktzahl von 93,4 auf IFEval, dass diese extreme Denkverbesserung die strenge Kontrollierbarkeit von Anweisungen nicht beeinträchtigt. In Erweiterung unserer vorherigen Arbeit mit 1,5B motivieren diese Erkenntnisse die Parametrische Kompressions-Abdeckungs-Hypothese, die verifizierbares Denken als komprimierbar in kompakte Denkkernstrukturen betrachtet, während offenes Domänenwissen und allgemeine Kompetenz eine breite Parameterabdeckung über Fakten, Konzepte und Long-Tail-Szenarien erfordern. Diese Perspektive legt nahe, dass kompakte Modelle nicht nur einsatz-effiziente Substitute sind, sondern einen komplementären Weg zu Spitzenleistungen in parameter-dichten Fähigkeitsbereichen darstellen.

English

This technical report introduces VibeThinker-3B, a compact dense model with 3B parameters developed to investigate how far verifiable reasoning can be pushed within a strictly small-model regime. Building upon the Spectrum-to-Signal post-training paradigm, we systematically enhance the model through an optimized pipeline that includes curriculum-based supervised fine-tuning, multi-domain reinforcement learning, and offline self-distillation. Experimental evaluations demonstrate that VibeThinker-3B achieves frontier-level performance on highly demanding verifiable tasks. Specifically, it attains a score of 94.3 on AIME26 (improving to 97.1 with claim-level test-time scaling), an 80.2 Pass@1 on LiveCodeBench v6, and exhibits strong out-of-distribution generalization with a 96.1\% acceptance rate on recent unseen LeetCode contests. This effectively places it in the performance band of first-tier reasoning systems, matching or exceeding flagship models that are orders of magnitude larger, such as DeepSeek V3.2, GLM-5, and Gemini 3 Pro. Furthermore, a score of 93.4 on IFEval confirms that this extreme reasoning enhancement does not compromise strict instruction controllability. Extending our previous 1.5B work, these findings motivate the Parametric Compression-Coverage Hypothesis, which views verifiable reasoning as compressible into compact reasoning cores, while open-domain knowledge and general-purpose competence require broad parameter coverage over facts, concepts, and long-tail scenarios. This perspective suggests that compact models are not merely deployment-efficient substitutes, but a complementary path toward frontier-level performance in parameter-dense capability regimes.