VibeThinker-3B: Explorando la frontera del razonamiento verificable en modelos de lenguaje pequeños

Resumen

Este informe técnico presenta VibeThinker-3B, un modelo denso compacto con 3 mil millones de parámetros desarrollado para investigar hasta dónde se puede impulsar el razonamiento verificable dentro de un régimen estrictamente de modelo pequeño. Basándonos en el paradigma de post-entrenamiento de Espectro a Señal, mejoramos sistemáticamente el modelo a través de un pipeline optimizado que incluye ajuste fino supervisado basado en currículo, aprendizaje por refuerzo multi-dominio y autodestilación fuera de línea. Las evaluaciones experimentales demuestran que VibeThinker-3B alcanza un rendimiento de primer nivel en tareas verificables altamente exigentes. Específicamente, obtiene una puntuación de 94.3 en AIME26 (mejorando a 97.1 con escalado en tiempo de prueba a nivel de afirmación), un 80.2 Pass@1 en LiveCodeBench v6, y muestra una fuerte generalización fuera de distribución con una tasa de aceptación del 96.1% en concursos recientes no vistos de LeetCode. Esto lo sitúa efectivamente en la banda de rendimiento de los sistemas de razonamiento de primer nivel, igualando o superando a modelos emblemáticos que son órdenes de magnitud más grandes, como DeepSeek V3.2, GLM-5 y Gemini 3 Pro. Además, una puntuación de 93.4 en IFEval confirma que esta mejora extrema del razonamiento no compromete el estricto control de instrucciones. Extendiendo nuestro trabajo anterior de 1.5B, estos hallazgos motivan la Hipótesis de Compresión-Cobertura Paramétrica, que considera el razonamiento verificable como compresible en núcleos de razonamiento compactos, mientras que el conocimiento de dominio abierto y la competencia de propósito general requieren una amplia cobertura de parámetros sobre hechos, conceptos y escenarios de cola larga. Esta perspectiva sugiere que los modelos compactos no son meros sustitutos eficientes en despliegue, sino un camino complementario hacia un rendimiento de primer nivel en regímenes de capacidad densa en parámetros.

English

This technical report introduces VibeThinker-3B, a compact dense model with 3B parameters developed to investigate how far verifiable reasoning can be pushed within a strictly small-model regime. Building upon the Spectrum-to-Signal post-training paradigm, we systematically enhance the model through an optimized pipeline that includes curriculum-based supervised fine-tuning, multi-domain reinforcement learning, and offline self-distillation. Experimental evaluations demonstrate that VibeThinker-3B achieves frontier-level performance on highly demanding verifiable tasks. Specifically, it attains a score of 94.3 on AIME26 (improving to 97.1 with claim-level test-time scaling), an 80.2 Pass@1 on LiveCodeBench v6, and exhibits strong out-of-distribution generalization with a 96.1\% acceptance rate on recent unseen LeetCode contests. This effectively places it in the performance band of first-tier reasoning systems, matching or exceeding flagship models that are orders of magnitude larger, such as DeepSeek V3.2, GLM-5, and Gemini 3 Pro. Furthermore, a score of 93.4 on IFEval confirms that this extreme reasoning enhancement does not compromise strict instruction controllability. Extending our previous 1.5B work, these findings motivate the Parametric Compression-Coverage Hypothesis, which views verifiable reasoning as compressible into compact reasoning cores, while open-domain knowledge and general-purpose competence require broad parameter coverage over facts, concepts, and long-tail scenarios. This perspective suggests that compact models are not merely deployment-efficient substitutes, but a complementary path toward frontier-level performance in parameter-dense capability regimes.