Piccolo Modello, Grande Logica: l'Ottimizzazione Guidata dalla Diversità Evoca Capacità di Ragionamento da Modello di Grandi Dimensioni in VibeThinker-1.5B
Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B
November 9, 2025
Autori: Sen Xu, Yi Zhou, Wei Wang, Jixin Min, Zhibin Yin, Yingwei Dai, Shixi Liu, Lianyu Pang, Yirong Chen, Junlin Zhang
cs.AI
Abstract
Contrastando il consenso prevalente secondo cui i modelli di piccole dimensioni sono intrinsecamente carenti di capacità di ragionamento robuste, questo rapporto introduce VibeThinker-1.5B, un modello denso da 1.5 miliardi di parametri sviluppato tramite il nostro Principio Spettro-Segnale (SSP). Ciò sfida l'approccio dominante di scalare i parametri del modello per potenziarne le capacità, come si osserva in modelli quali DeepSeek R1 (671B) e Kimi k2 (>1T). Il framework SSP impiega inizialmente una Distillazione Esplorativa della Diversità in Due Fasi (SFT) per generare un ampio spettro di soluzioni, seguita da un'Ottimizzazione della Politica Guidata dall'Entropia Massima (RL) per amplificare il segnale corretto. Con un costo totale di addestramento di soli 7.800 dollari, VibeThinker-1.5B dimostra capacità di ragionamento superiori rispetto a modelli closed-source come Magistral Medium e Claude Opus 4, e performa alla pari con modelli open-source come GPT OSS-20B Medium. Notevolmente, supera il ben 400 volte più grande DeepSeek R1 su tre benchmark matematici: AIME24 (80.3 vs. 79.8), AIME25 (74.4 vs. 70.0) e HMMT25 (50.4 vs. 41.7). Questo rappresenta un miglioramento sostanziale rispetto al suo modello base (rispettivamente 6.7, 4.3 e 0.6). Su LiveCodeBench V6, ottiene un punteggio di 51.1, superando il 50.3 di Magistral Medium e lo 0.0 del suo modello base. Questi risultati dimostrano che modelli di piccole dimensioni possono raggiungere capacità di ragionamento paragonabili a modelli di grandi dimensioni, riducendo drasticamente i costi di addestramento e inferenza e democratizzando così la ricerca avanzata in IA.
English
Challenging the prevailing consensus that small models inherently lack robust
reasoning, this report introduces VibeThinker-1.5B, a 1.5B-parameter dense
model developed via our Spectrum-to-Signal Principle (SSP). This challenges the
prevailing approach of scaling model parameters to enhance capabilities, as
seen in models like DeepSeek R1 (671B) and Kimi k2 (>1T). The SSP framework
first employs a Two-Stage Diversity-Exploring Distillation (SFT) to generate a
broad spectrum of solutions, followed by MaxEnt-Guided Policy Optimization (RL)
to amplify the correct signal. With a total training cost of only $7,800,
VibeThinker-1.5B demonstrates superior reasoning capabilities compared to
closed-source models like Magistral Medium and Claude Opus 4, and performs on
par with open-source models like GPT OSS-20B Medium. Remarkably, it surpasses
the 400x larger DeepSeek R1 on three math benchmarks: AIME24 (80.3 vs. 79.8),
AIME25 (74.4 vs. 70.0), and HMMT25 (50.4 vs. 41.7). This is a substantial
improvement over its base model (6.7, 4.3, and 0.6, respectively). On
LiveCodeBench V6, it scores 51.1, outperforming Magistral Medium's 50.3 and its
base model's 0.0. These findings demonstrate that small models can achieve
reasoning capabilities comparable to large models, drastically reducing
training and inference costs and thereby democratizing advanced AI research.