Petit Modèle, Grande Logique : L'Optimisation par Diversité Suscite les Capacités de Raisonnement des Grands Modèles chez VibeThinker-1.5B
Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B
November 9, 2025
papers.authors: Sen Xu, Yi Zhou, Wei Wang, Jixin Min, Zhibin Yin, Yingwei Dai, Shixi Liu, Lianyu Pang, Yirong Chen, Junlin Zhang
cs.AI
papers.abstract
Remettant en question le consensus dominant selon lequel les petits modèles manquent intrinsèquement de capacités de raisonnement robustes, ce rapport présente VibeThinker-1.5B, un modèle dense de 1,5 milliard de paramètres développé via notre Principe Spectrum-to-Signal (SSP). Cette approche conteste la méthode prédominante qui consiste à augmenter l'échelle des paramètres pour améliorer les capacités, comme observé dans des modèles tels que DeepSeek R1 (671B) et Kimi k2 (>1T). Le cadre SSP utilise d'abord un Distillateur à Exploration de Diversité en Deux Étapes (SFT) pour générer un large spectre de solutions, suivi d'une Optimisation de Politique Guidée par l'Entropie Maximale (RL) pour amplifier le signal correct. Avec un coût total d'entraînement de seulement 7 800 $, VibeThinker-1.5B démontre des capacités de raisonnement supérieures à celles de modèles propriétaires comme Magistral Medium et Claude Opus 4, et performe au même niveau que des modèles open source comme GPT OSS-20B Medium. Fait remarquable, il surpasse le modèle DeepSeek R1, pourtant 400 fois plus grand, sur trois benchmarks mathématiques : AIME24 (80,3 contre 79,8), AIME25 (74,4 contre 70,0) et HMMT25 (50,4 contre 41,7). Cela représente une amélioration substantielle par rapport à son modèle de base (respectivement 6,7, 4,3 et 0,6). Sur LiveCodeBench V6, il obtient un score de 51,1, surpassant les 50,3 de Magistral Medium et les 0,0 de son modèle de base. Ces résultats démontrent que les petits modèles peuvent atteindre des capacités de raisonnement comparables à celles des grands modèles, réduisant ainsi drastiquement les coûts d'entraînement et d'inférence et démocratisant ainsi la recherche avancée en IA.
English
Challenging the prevailing consensus that small models inherently lack robust
reasoning, this report introduces VibeThinker-1.5B, a 1.5B-parameter dense
model developed via our Spectrum-to-Signal Principle (SSP). This challenges the
prevailing approach of scaling model parameters to enhance capabilities, as
seen in models like DeepSeek R1 (671B) and Kimi k2 (>1T). The SSP framework
first employs a Two-Stage Diversity-Exploring Distillation (SFT) to generate a
broad spectrum of solutions, followed by MaxEnt-Guided Policy Optimization (RL)
to amplify the correct signal. With a total training cost of only $7,800,
VibeThinker-1.5B demonstrates superior reasoning capabilities compared to
closed-source models like Magistral Medium and Claude Opus 4, and performs on
par with open-source models like GPT OSS-20B Medium. Remarkably, it surpasses
the 400x larger DeepSeek R1 on three math benchmarks: AIME24 (80.3 vs. 79.8),
AIME25 (74.4 vs. 70.0), and HMMT25 (50.4 vs. 41.7). This is a substantial
improvement over its base model (6.7, 4.3, and 0.6, respectively). On
LiveCodeBench V6, it scores 51.1, outperforming Magistral Medium's 50.3 and its
base model's 0.0. These findings demonstrate that small models can achieve
reasoning capabilities comparable to large models, drastically reducing
training and inference costs and thereby democratizing advanced AI research.