ChatPaper.aiChatPaper

Klein Model, Grote Logica: Diversiteit-Gedreven Optimalisatie Ontlokt Groot-Model Redeneervermogen in VibeThinker-1.5B

Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

November 9, 2025
Auteurs: Sen Xu, Yi Zhou, Wei Wang, Jixin Min, Zhibin Yin, Yingwei Dai, Shixi Liu, Lianyu Pang, Yirong Chen, Junlin Zhang
cs.AI

Samenvatting

In tegenstelling tot de heersende consensus dat kleine modellen inherent geen robuuste redeneervermogen hebben, introduceert dit rapport VibeThinker-1.5B, een dicht model met 1,5 miljard parameters dat is ontwikkeld via ons Spectrum-to-Signal Principle (SSP). Dit principe daagt de gangbare aanpak uit om modelparameters op te schalen om capaciteiten te vergroten, zoals te zien is bij modellen als DeepSeek R1 (671B) en Kimi k2 (>1T). Het SSP-raamwerk gebruikt eerst een Two-Stage Diversity-Exploring Distillation (SFT) om een breed spectrum aan oplossingen te genereren, gevolgd door MaxEnt-Guided Policy Optimization (RL) om het correcte signaal te versterken. Met totale trainingskosten van slechts $7.800 toont VibeThinker-1.5B superieure redeneercapaciteiten in vergelijking met gesloten modellen zoals Magistral Medium en Claude Opus 4, en presteert het gelijkwaardig aan open-sourcemodellen zoals GPT OSS-20B Medium. Opmerkelijk is dat het het 400 keer grotere DeepSeek R1 overtreft op drie wiskundige benchmarks: AIME24 (80,3 vs. 79,8), AIME25 (74,4 vs. 70,0) en HMMT25 (50,4 vs. 41,7). Dit is een aanzienlijke verbetering ten opzichte van het basismodel (respectievelijk 6,7, 4,3 en 0,6). Op LiveCodeBench V6 behaalt het een score van 51,1, wat beter is dan Magistral Medium (50,3) en het basismodel (0,0). Deze bevindingen tonen aan dat kleine modellen redeneervermogen kunnen bereiken dat vergelijkbaar is met dat van grote modellen, waardoor de trainings- en inferentiekosten aanzienlijk worden verlaagd en geavanceerd AI-onderzoek zo wordt gedemocratiseerd.
English
Challenging the prevailing consensus that small models inherently lack robust reasoning, this report introduces VibeThinker-1.5B, a 1.5B-parameter dense model developed via our Spectrum-to-Signal Principle (SSP). This challenges the prevailing approach of scaling model parameters to enhance capabilities, as seen in models like DeepSeek R1 (671B) and Kimi k2 (>1T). The SSP framework first employs a Two-Stage Diversity-Exploring Distillation (SFT) to generate a broad spectrum of solutions, followed by MaxEnt-Guided Policy Optimization (RL) to amplify the correct signal. With a total training cost of only $7,800, VibeThinker-1.5B demonstrates superior reasoning capabilities compared to closed-source models like Magistral Medium and Claude Opus 4, and performs on par with open-source models like GPT OSS-20B Medium. Remarkably, it surpasses the 400x larger DeepSeek R1 on three math benchmarks: AIME24 (80.3 vs. 79.8), AIME25 (74.4 vs. 70.0), and HMMT25 (50.4 vs. 41.7). This is a substantial improvement over its base model (6.7, 4.3, and 0.6, respectively). On LiveCodeBench V6, it scores 51.1, outperforming Magistral Medium's 50.3 and its base model's 0.0. These findings demonstrate that small models can achieve reasoning capabilities comparable to large models, drastically reducing training and inference costs and thereby democratizing advanced AI research.
PDF12511December 2, 2025