작은 모델, 큰 논리: 다양성 주도 최적화가 VibeThinker-1.5B에서 대형 모델 수준의 추론 능력을 이끌어내다
Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B
November 9, 2025
저자: Sen Xu, Yi Zhou, Wei Wang, Jixin Min, Zhibin Yin, Yingwei Dai, Shixi Liu, Lianyu Pang, Yirong Chen, Junlin Zhang
cs.AI
초록
소규모 모델이 본질적으로 견고한 추론 능력을 결여한다는 기존 합의에 도전하는 본 보고서는 Spectrum-to-Signal Principle(SSP)을 통해 개발된 15억 파라미터 조밀 모델(dense model)인 VibeThinker-1.5B를 소개한다. 이는 DeepSeek R1(6710억) 및 Kimi k2(1조 이상)와 같은 모델에서 볼 수 있듯, 능력 향상을 위해 모델 파라미터를 확장하는 기존 접근법에 대한 반증이다. SSP 프레임워크는 먼저 Two-Stage Diversity-Exploring Distillation(SFT)을 사용하여 다양한 해법 스펙트럼을 생성한 후, MaxEnt-Guided Policy Optimization(RL)을 통해 정답 신호를 증폭시킨다. 총 7,800달러의 훈련 비용으로 VibeThinker-1.5B는 Magistral Medium, Claude Opus 4와 같은 비공개 소스 모델들을 능가하는 우수한 추론 능력을 보여주며, GPT OSS-20B Medium과 같은 공개 소스 모델과도 동등한 성능을 발휘한다. 특히 수학 벤치마크 AIME24(80.3 대 79.8), AIME25(74.4 대 70.0), HMMT25(50.4 대 41.7)에서 파라미터가 400배 큰 DeepSeek R1을 능가했다. 이는 기반 모델의 성능(각각 6.7, 4.3, 0.6)에 비해 상당한 향상이다. LiveCodeBench V6에서는 51.1점을 기록하여 Magistral Medium의 50.3점과 기반 모델의 0.0점을 앞섰다. 이러한 결과는 소규모 모델이 대규모 모델에 버금가는 추론 능력을 달성할 수 있음을 입증하며, 훈련 및 추론 비용을 획기적으로 절감함으로써 고급 AI 연구의 민주화를 촉진한다.
English
Challenging the prevailing consensus that small models inherently lack robust
reasoning, this report introduces VibeThinker-1.5B, a 1.5B-parameter dense
model developed via our Spectrum-to-Signal Principle (SSP). This challenges the
prevailing approach of scaling model parameters to enhance capabilities, as
seen in models like DeepSeek R1 (671B) and Kimi k2 (>1T). The SSP framework
first employs a Two-Stage Diversity-Exploring Distillation (SFT) to generate a
broad spectrum of solutions, followed by MaxEnt-Guided Policy Optimization (RL)
to amplify the correct signal. With a total training cost of only $7,800,
VibeThinker-1.5B demonstrates superior reasoning capabilities compared to
closed-source models like Magistral Medium and Claude Opus 4, and performs on
par with open-source models like GPT OSS-20B Medium. Remarkably, it surpasses
the 400x larger DeepSeek R1 on three math benchmarks: AIME24 (80.3 vs. 79.8),
AIME25 (74.4 vs. 70.0), and HMMT25 (50.4 vs. 41.7). This is a substantial
improvement over its base model (6.7, 4.3, and 0.6, respectively). On
LiveCodeBench V6, it scores 51.1, outperforming Magistral Medium's 50.3 and its
base model's 0.0. These findings demonstrate that small models can achieve
reasoning capabilities comparable to large models, drastically reducing
training and inference costs and thereby democratizing advanced AI research.