ChatPaper.aiChatPaper

Modelo Pequeño, Gran Lógica: La Optimización Basada en la Diversidad Despliega la Capacidad de Razonamiento de Modelos Grandes en VibeThinker-1.5B

Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

November 9, 2025
Autores: Sen Xu, Yi Zhou, Wei Wang, Jixin Min, Zhibin Yin, Yingwei Dai, Shixi Liu, Lianyu Pang, Yirong Chen, Junlin Zhang
cs.AI

Resumen

Desafiando el consenso predominante de que los modelos pequeños carecen inherentemente de razonamiento robusto, este informe presenta VibeThinker-1.5B, un modelo denso de 1.500 millones de parámetros desarrollado mediante nuestro Principio de Espectro a Señal (SSP). Esto cuestiona el enfoque predominante de escalar parámetros del modelo para mejorar capacidades, como se observa en modelos como DeepSeek R1 (671B) y Kimi k2 (>1T). El marco SSP emplea primero una Destilación de Exploración de Diversidad en Dos Etapas (SFT) para generar un amplio espectro de soluciones, seguida de una Optimización de Políticas Guiada por Entropía Máxima (RL) para amplificar la señal correcta. Con un costo total de entrenamiento de solo $7,800, VibeThinker-1.5B demuestra capacidades de razonamiento superiores en comparación con modelos de código cerrado como Magistral Medium y Claude Opus 4, y rinde a la par con modelos de código abierto como GPT OSS-20B Medium. Notablemente, supera al 400 veces más grande DeepSeek R1 en tres benchmarks matemáticos: AIME24 (80.3 vs. 79.8), AIME25 (74.4 vs. 70.0) y HMMT25 (50.4 vs. 41.7). Esto representa una mejora sustancial respecto a su modelo base (6.7, 4.3 y 0.6, respectivamente). En LiveCodeBench V6, obtiene una puntuación de 51.1, superando los 50.3 de Magistral Medium y los 0.0 de su modelo base. Estos hallazgos demuestran que los modelos pequeños pueden lograr capacidades de razonamiento comparables a las de modelos grandes, reduciendo drásticamente los costos de entrenamiento e inferencia y democratizando así la investigación avanzada en IA.
English
Challenging the prevailing consensus that small models inherently lack robust reasoning, this report introduces VibeThinker-1.5B, a 1.5B-parameter dense model developed via our Spectrum-to-Signal Principle (SSP). This challenges the prevailing approach of scaling model parameters to enhance capabilities, as seen in models like DeepSeek R1 (671B) and Kimi k2 (>1T). The SSP framework first employs a Two-Stage Diversity-Exploring Distillation (SFT) to generate a broad spectrum of solutions, followed by MaxEnt-Guided Policy Optimization (RL) to amplify the correct signal. With a total training cost of only $7,800, VibeThinker-1.5B demonstrates superior reasoning capabilities compared to closed-source models like Magistral Medium and Claude Opus 4, and performs on par with open-source models like GPT OSS-20B Medium. Remarkably, it surpasses the 400x larger DeepSeek R1 on three math benchmarks: AIME24 (80.3 vs. 79.8), AIME25 (74.4 vs. 70.0), and HMMT25 (50.4 vs. 41.7). This is a substantial improvement over its base model (6.7, 4.3, and 0.6, respectively). On LiveCodeBench V6, it scores 51.1, outperforming Magistral Medium's 50.3 and its base model's 0.0. These findings demonstrate that small models can achieve reasoning capabilities comparable to large models, drastically reducing training and inference costs and thereby democratizing advanced AI research.
PDF12511December 2, 2025