Pequeno Modelo, Grande Lógica: Otimização Orientada pela Diversidade Extrai Capacidade de Raciocínio de Modelos Grandes no VibeThinker-1.5B

Resumo

Desafiando o consenso predominante de que modelos pequenos inerentemente carecem de raciocínio robusto, este relatório apresenta o VibeThinker-1.5B, um modelo denso de 1,5 bilhão de parâmetros desenvolvido por meio do nosso Princípio Espectro-Sinal (PES). Isso contesta a abordagem predominante de escalar parâmetros do modelo para melhorar capacidades, como visto em modelos como DeepSeek R1 (671B) e Kimi k2 (>1T). A estrutura PES emprega primeiro uma Destilação de Exploração de Diversidade em Duas Etapas (SFT) para gerar um amplo espectro de soluções, seguida por uma Otimização de Política Guiada por Entropia Máxima (RL) para amplificar o sinal correto. Com um custo total de treinamento de apenas US$ 7.800, o VibeThinker-1.5B demonstra capacidades de raciocínio superiores em comparação com modelos de código fechado como Magistral Medium e Claude Opus 4, e tem desempenho equivalente a modelos de código aberto como GPT OSS-20B Medium. Notavelmente, ele supera o DeepSeek R1, que é 400 vezes maior, em três benchmarks de matemática: AIME24 (80,3 vs. 79,8), AIME25 (74,4 vs. 70,0) e HMMT25 (50,4 vs. 41,7). Isso representa uma melhoria substancial em relação ao seu modelo base (6,7; 4,3; e 0,6, respectivamente). No LiveCodeBench V6, ele marca 51,1, superando os 50,3 do Magistral Medium e os 0,0 do seu modelo base. Esses achados demonstram que modelos pequenos podem alcançar capacidades de raciocínio comparáveis a modelos grandes, reduzindo drasticamente os custos de treinamento e inferência e, assim, democratizando a pesquisa avançada em IA.

English

Challenging the prevailing consensus that small models inherently lack robust reasoning, this report introduces VibeThinker-1.5B, a 1.5B-parameter dense model developed via our Spectrum-to-Signal Principle (SSP). This challenges the prevailing approach of scaling model parameters to enhance capabilities, as seen in models like DeepSeek R1 (671B) and Kimi k2 (>1T). The SSP framework first employs a Two-Stage Diversity-Exploring Distillation (SFT) to generate a broad spectrum of solutions, followed by MaxEnt-Guided Policy Optimization (RL) to amplify the correct signal. With a total training cost of only $7,800, VibeThinker-1.5B demonstrates superior reasoning capabilities compared to closed-source models like Magistral Medium and Claude Opus 4, and performs on par with open-source models like GPT OSS-20B Medium. Remarkably, it surpasses the 400x larger DeepSeek R1 on three math benchmarks: AIME24 (80.3 vs. 79.8), AIME25 (74.4 vs. 70.0), and HMMT25 (50.4 vs. 41.7). This is a substantial improvement over its base model (6.7, 4.3, and 0.6, respectively). On LiveCodeBench V6, it scores 51.1, outperforming Magistral Medium's 50.3 and its base model's 0.0. These findings demonstrate that small models can achieve reasoning capabilities comparable to large models, drastically reducing training and inference costs and thereby democratizing advanced AI research.

Pequeno Modelo, Grande Lógica: Otimização Orientada pela Diversidade Extrai Capacidade de Raciocínio de Modelos Grandes no VibeThinker-1.5B

Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

Resumo

Support