Kleines Modell, große Logik: Diversitätsgetriebene Optimierung entfaltet Großmodell-Denkfähigkeit in VibeThinker-1.5B
Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B
November 9, 2025
papers.authors: Sen Xu, Yi Zhou, Wei Wang, Jixin Min, Zhibin Yin, Yingwei Dai, Shixi Liu, Lianyu Pang, Yirong Chen, Junlin Zhang
cs.AI
papers.abstract
Entgegen dem vorherrschenden Konsens, dass kleine Modelle inhärent keine robusten Denkfähigkeiten besitzen, stellt dieser Bericht VibeThinker-1.5B vor – ein dichtes Modell mit 1,5 Milliarden Parametern, das mittels unseres Spectrum-to-Signal-Prinzips (SSP) entwickelt wurde. Dies stellt den vorherrschenden Ansatz in Frage, Modellparameter zu skalieren, um Fähigkeiten zu verbessern, wie es bei Modellen wie DeepSeek R1 (671B) und Kimi k2 (>1B) zu beobachten ist. Das SSP-Framework wendet zunächst eine Two-Stage Diversity-Exploring Distillation (SFT) an, um ein breites Spektrum an Lösungen zu generieren, gefolgt von einer MaxEnt-Guided Policy Optimization (RL), um das korrekte Signal zu verstärken. Bei Gesamttrainingskosten von nur 7.800 US-Dollar demonstriert VibeThinker-1.5B überlegene Denkfähigkeiten im Vergleich zu Closed-Source-Modellen wie Magistral Medium und Claude Opus 4 und liegt auf Augenhöhe mit Open-Source-Modellen wie GPT OSS-20B Medium. Bemerkenswerterweise übertrifft es das 400-fach größere DeepSeek R1 in drei mathematischen Benchmarks: AIME24 (80,3 vs. 79,8), AIME25 (74,4 vs. 70,0) und HMMT25 (50,4 vs. 41,7). Dies stellt eine erhebliche Verbesserung gegenüber seinem Basismodell dar (6,7, 4,3 bzw. 0,6). Auf LiveCodeBench V6 erzielt es eine Punktzahl von 51,1 und übertrifft damit Magistral Medium (50,3) und sein Basismodell (0,0). Diese Ergebnisse zeigen, dass kleine Modelle Denkfähigkeiten erreichen können, die mit großen Modellen vergleichbar sind, was die Trainings- und Inferenzkosten drastisch senkt und damit fortschrittliche KI-Forschung demokratisiert.
English
Challenging the prevailing consensus that small models inherently lack robust
reasoning, this report introduces VibeThinker-1.5B, a 1.5B-parameter dense
model developed via our Spectrum-to-Signal Principle (SSP). This challenges the
prevailing approach of scaling model parameters to enhance capabilities, as
seen in models like DeepSeek R1 (671B) and Kimi k2 (>1T). The SSP framework
first employs a Two-Stage Diversity-Exploring Distillation (SFT) to generate a
broad spectrum of solutions, followed by MaxEnt-Guided Policy Optimization (RL)
to amplify the correct signal. With a total training cost of only $7,800,
VibeThinker-1.5B demonstrates superior reasoning capabilities compared to
closed-source models like Magistral Medium and Claude Opus 4, and performs on
par with open-source models like GPT OSS-20B Medium. Remarkably, it surpasses
the 400x larger DeepSeek R1 on three math benchmarks: AIME24 (80.3 vs. 79.8),
AIME25 (74.4 vs. 70.0), and HMMT25 (50.4 vs. 41.7). This is a substantial
improvement over its base model (6.7, 4.3, and 0.6, respectively). On
LiveCodeBench V6, it scores 51.1, outperforming Magistral Medium's 50.3 and its
base model's 0.0. These findings demonstrate that small models can achieve
reasoning capabilities comparable to large models, drastically reducing
training and inference costs and thereby democratizing advanced AI research.