ChatPaper.aiChatPaper

VibeThinker-3B: 소규모 언어 모델에서 검증 가능한 추론의 프런티어 탐구

VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

June 15, 2026
저자: Sen Xu, Shixi Liu, Wei Wang, Jixin Min, Yingwei Dai, Zhibin Yin, Yirong Chen, Xin Zhou, Junlin Zhang
cs.AI

초록

본 기술 보고서는 VibeThinker-3B를 소개한다. 이는 엄격한 소형 모델 체제 내에서 검증 가능한 추론(verifiable reasoning)이 어디까지 발전할 수 있는지 탐구하기 위해 개발된 30억 개의 파라미터를 갖춘 소형 고밀도 모델이다. Spectrum-to-Signal 사후 훈련 패러다임을 기반으로, 커리큘럼 기반 지도 미세 조정, 다중 도메인 강화 학습, 오프라인 자기 증류를 포함한 최적화된 파이프라인을 통해 모델을 체계적으로 개선한다. 실험 평가 결과, VibeThinker-3B는 매우 까다로운 검증 가능한 작업에서 최첨단 수준의 성능을 달성함을 보여준다. 구체적으로, AIME26에서 94.3점(클레임 수준 테스트 시간 스케일링 적용 시 97.1점으로 향상), LiveCodeBench v6에서 80.2%의 Pass@1을 기록했으며, 최신 미공개 LeetCode 대회에서 96.1%의 수용률로 뛰어난 분포 외 일반화 성능을 보였다. 이는 사실상 일류 추론 시스템의 성능 대역에 위치하며, DeepSeek V3.2, GLM-5, Gemini 3 Pro와 같이 규모가 수십 배 더 큰 플래그십 모델과 동등하거나 이를 능가한다. 또한 IFEval에서 93.4점을 기록하여, 이러한 극단적인 추론 향상이 엄격한 명령 제어 가능성을 저해하지 않음을 확인했다. 이전의 15억 파라미터 작업을 확장한 이러한 발견은 파라미터 압축-범위 가설(Parametric Compression-Coverage Hypothesis)을 뒷받침한다. 이 가설은 검증 가능한 추론이 소형 추론 코어로 압축 가능한 반면, 개방형 도메인 지식과 범용 능력은 사실, 개념, 장기 꼬리 시나리오에 걸친 광범위한 파라미터 범위를 필요로 한다고 본다. 이러한 관점은 소형 모델이 단순히 배포 효율적인 대체재가 아니라, 파라미터 밀집 능력 체제에서 최첨단 성능을 향한 보완적 경로임을 시사한다.
English
This technical report introduces VibeThinker-3B, a compact dense model with 3B parameters developed to investigate how far verifiable reasoning can be pushed within a strictly small-model regime. Building upon the Spectrum-to-Signal post-training paradigm, we systematically enhance the model through an optimized pipeline that includes curriculum-based supervised fine-tuning, multi-domain reinforcement learning, and offline self-distillation. Experimental evaluations demonstrate that VibeThinker-3B achieves frontier-level performance on highly demanding verifiable tasks. Specifically, it attains a score of 94.3 on AIME26 (improving to 97.1 with claim-level test-time scaling), an 80.2 Pass@1 on LiveCodeBench v6, and exhibits strong out-of-distribution generalization with a 96.1\% acceptance rate on recent unseen LeetCode contests. This effectively places it in the performance band of first-tier reasoning systems, matching or exceeding flagship models that are orders of magnitude larger, such as DeepSeek V3.2, GLM-5, and Gemini 3 Pro. Furthermore, a score of 93.4 on IFEval confirms that this extreme reasoning enhancement does not compromise strict instruction controllability. Extending our previous 1.5B work, these findings motivate the Parametric Compression-Coverage Hypothesis, which views verifiable reasoning as compressible into compact reasoning cores, while open-domain knowledge and general-purpose competence require broad parameter coverage over facts, concepts, and long-tail scenarios. This perspective suggests that compact models are not merely deployment-efficient substitutes, but a complementary path toward frontier-level performance in parameter-dense capability regimes.