VibeThinker-3B : Explorer la frontière du raisonnement vérifiable dans les petits modèles de langage

Résumé

Ce rapport technique présente VibeThinker-3B, un modèle dense compact de 3 milliards de paramètres développé pour étudier jusqu’où le raisonnement vérifiable peut être poussé dans un régime strictement petit modèle. En nous appuyant sur le paradigme de post-entraînement du spectre au signal, nous améliorons systématiquement le modèle via un pipeline optimisé qui comprend un apprentissage supervisé fin basé sur un curriculum, un apprentissage par renforcement multi-domaine et une auto-distillation hors ligne. Les évaluations expérimentales montrent que VibeThinker-3B atteint des performances de pointe sur des tâches vérifiables très exigeantes. Plus précisément, il obtient un score de 94,3 sur AIME26 (passant à 97,1 avec une mise à l’échelle au niveau des affirmations pendant le test), un Pass@1 de 80,2 sur LiveCodeBench v6, et présente une forte généralisation hors distribution avec un taux d’acceptation de 96,1 % sur de récents concours LeetCode inédits. Cela le place effectivement dans la gamme de performances des systèmes de raisonnement de premier plan, égalant ou dépassant des modèles phares d’ordres de grandeur plus grands, tels que DeepSeek V3.2, GLM-5 et Gemini 3 Pro. De plus, un score de 93,4 sur IFEval confirme que cet extrême renforcement du raisonnement ne compromet pas la contrôlabilité stricte des instructions. En prolongeant nos précédents travaux sur le modèle 1,5B, ces résultats motivent l’Hypothèse de Compression-Couverture Paramétrique, qui considère le raisonnement vérifiable comme compressible en noyaux de raisonnement compacts, tandis que les connaissances ouvertes et la compétence générale nécessitent une large couverture paramétrique des faits, concepts et scénarios de longue traîne. Cette perspective suggère que les modèles compacts ne sont pas simplement des substituts efficaces pour le déploiement, mais une voie complémentaire vers des performances de pointe dans les régimes de capacité denses en paramètres.

English

This technical report introduces VibeThinker-3B, a compact dense model with 3B parameters developed to investigate how far verifiable reasoning can be pushed within a strictly small-model regime. Building upon the Spectrum-to-Signal post-training paradigm, we systematically enhance the model through an optimized pipeline that includes curriculum-based supervised fine-tuning, multi-domain reinforcement learning, and offline self-distillation. Experimental evaluations demonstrate that VibeThinker-3B achieves frontier-level performance on highly demanding verifiable tasks. Specifically, it attains a score of 94.3 on AIME26 (improving to 97.1 with claim-level test-time scaling), an 80.2 Pass@1 on LiveCodeBench v6, and exhibits strong out-of-distribution generalization with a 96.1\% acceptance rate on recent unseen LeetCode contests. This effectively places it in the performance band of first-tier reasoning systems, matching or exceeding flagship models that are orders of magnitude larger, such as DeepSeek V3.2, GLM-5, and Gemini 3 Pro. Furthermore, a score of 93.4 on IFEval confirms that this extreme reasoning enhancement does not compromise strict instruction controllability. Extending our previous 1.5B work, these findings motivate the Parametric Compression-Coverage Hypothesis, which views verifiable reasoning as compressible into compact reasoning cores, while open-domain knowledge and general-purpose competence require broad parameter coverage over facts, concepts, and long-tail scenarios. This perspective suggests that compact models are not merely deployment-efficient substitutes, but a complementary path toward frontier-level performance in parameter-dense capability regimes.