VibeThinker-3B: Het verkennen van de grens van verifieerbaar redeneren in kleine taalmodellen

Samenvatting

Dit technische rapport introduceert VibeThinker-3B, een compact dicht model met 3B parameters, ontwikkeld om te onderzoeken hoe ver verifieerbaar redeneren kan worden opgevoerd binnen een strikt klein-modelregime. Voortbouwend op het Spectrum-to-Signal post-trainingparadigma verbeteren we het model systematisch via een geoptimaliseerde pijplijn die curriculum-gebaseerd gesuperviseerd fine-tunen, multi-domein versterkingsleren en offline zelfdestillatie omvat. Experimentele evaluaties tonen aan dat VibeThinker-3B grensverleggende prestaties levert op zeer veeleisende verifieerbare taken. Specifiek behaalt het een score van 94,3 op AIME26 (verbeterend tot 97,1 met claim-niveau test-tijd schaling), een 80,2 Pass@1 op LiveCodeBench v6, en vertoont het sterke buiten-distributie generalisatie met een acceptatiegraad van 96,1% op recente ongeziene LeetCode-wedstrijden. Dit plaatst het effectief in de prestatieband van eersteklas redeneersystemen, waarbij het overeenkomt met of beter presteert dan vlaggenschipmodellen die orden van grootte groter zijn, zoals DeepSeek V3.2, GLM-5 en Gemini 3 Pro. Bovendien bevestigt een score van 93,4 op IFEval dat deze extreme redeneerverbetering geen afbreuk doet aan strikte instructiebeheersbaarheid. Als uitbreiding van ons eerdere 1,5B-werk motiveren deze bevindingen de Parametrische Compressie-Dekkingshypothese, die verifieerbaar redeneren beschouwt als comprimeerbaar in compacte redeneerkernen, terwijl open-domein kennis en algemene competentie brede parameterdekking vereisen over feiten, concepten en lange-staartscenario's. Dit perspectief suggereert dat compacte modellen niet slechts implementatie-efficiënte substituten zijn, maar een complementair pad vormen naar grensverleggende prestaties in parameter-dichte competentiegebieden.

English

This technical report introduces VibeThinker-3B, a compact dense model with 3B parameters developed to investigate how far verifiable reasoning can be pushed within a strictly small-model regime. Building upon the Spectrum-to-Signal post-training paradigm, we systematically enhance the model through an optimized pipeline that includes curriculum-based supervised fine-tuning, multi-domain reinforcement learning, and offline self-distillation. Experimental evaluations demonstrate that VibeThinker-3B achieves frontier-level performance on highly demanding verifiable tasks. Specifically, it attains a score of 94.3 on AIME26 (improving to 97.1 with claim-level test-time scaling), an 80.2 Pass@1 on LiveCodeBench v6, and exhibits strong out-of-distribution generalization with a 96.1\% acceptance rate on recent unseen LeetCode contests. This effectively places it in the performance band of first-tier reasoning systems, matching or exceeding flagship models that are orders of magnitude larger, such as DeepSeek V3.2, GLM-5, and Gemini 3 Pro. Furthermore, a score of 93.4 on IFEval confirms that this extreme reasoning enhancement does not compromise strict instruction controllability. Extending our previous 1.5B work, these findings motivate the Parametric Compression-Coverage Hypothesis, which views verifiable reasoning as compressible into compact reasoning cores, while open-domain knowledge and general-purpose competence require broad parameter coverage over facts, concepts, and long-tail scenarios. This perspective suggests that compact models are not merely deployment-efficient substitutes, but a complementary path toward frontier-level performance in parameter-dense capability regimes.