ChatPaper.aiChatPaper

Маленькая модель, большая логика: Оптимизация на основе разнообразия раскрывает способность к рассуждению крупных моделей в VibeThinker-1.5B

Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

November 9, 2025
Авторы: Sen Xu, Yi Zhou, Wei Wang, Jixin Min, Zhibin Yin, Yingwei Dai, Shixi Liu, Lianyu Pang, Yirong Chen, Junlin Zhang
cs.AI

Аннотация

Бросая вызов преобладающему консенсусу о том, что малые модели по своей природе лишены надежных способностей к рассуждению, данный отчет представляет VibeThinker-1.5B — плотную модель с 1,5 миллиардами параметров, разработанную на основе нашего Принципа «От Спектра к Сигналу» (ПСС). Это ставит под сомнение доминирующий подход к наращиванию числа параметров модели для повышения ее возможностей, как это наблюдается в таких моделях, как DeepSeek R1 (671B) и Kimi k2 (>1T). Фреймворк ПСС сначала использует Двухэтапное Диверсифицирующее Дистилляционное Обучение с учителем (SFT) для генерации широкого спектра решений, а затем — Оптимизацию Стратегии с Направлением по Максимуму Энтропии (RL) для усиления корректного сигнала. При общих затратах на обучение всего в $7800, VibeThinker-1.5B демонстрирует превосходные способности к логическому выводу по сравнению с закрытыми моделями, такими как Magistral Medium и Claude Opus 4, и показывает результаты на уровне открытых моделей, таких как GPT OSS-20B Medium. Примечательно, что она превосходит модель DeepSeek R1, которая в 400 раз крупнее, по трем математическим тестам: AIME24 (80,3 против 79,8), AIME25 (74,4 против 70,0) и HMMT25 (50,4 против 41,7). Это представляет собой существенное улучшение по сравнению с ее базовой моделью (6,7; 4,3 и 0,6 соответственно). На тесте LiveCodeBench V6 модель набирает 51,1 балл, превосходя результат Magistral Medium в 50,3 балла и результат ее базовой модели в 0,0 баллов. Эти результаты демонстрируют, что малые модели могут достигать способностей к рассуждениям, сопоставимых с крупными моделями, что радикально снижает затраты на обучение и вывод и, тем самым, демократизирует передовые исследования в области ИИ.
English
Challenging the prevailing consensus that small models inherently lack robust reasoning, this report introduces VibeThinker-1.5B, a 1.5B-parameter dense model developed via our Spectrum-to-Signal Principle (SSP). This challenges the prevailing approach of scaling model parameters to enhance capabilities, as seen in models like DeepSeek R1 (671B) and Kimi k2 (>1T). The SSP framework first employs a Two-Stage Diversity-Exploring Distillation (SFT) to generate a broad spectrum of solutions, followed by MaxEnt-Guided Policy Optimization (RL) to amplify the correct signal. With a total training cost of only $7,800, VibeThinker-1.5B demonstrates superior reasoning capabilities compared to closed-source models like Magistral Medium and Claude Opus 4, and performs on par with open-source models like GPT OSS-20B Medium. Remarkably, it surpasses the 400x larger DeepSeek R1 on three math benchmarks: AIME24 (80.3 vs. 79.8), AIME25 (74.4 vs. 70.0), and HMMT25 (50.4 vs. 41.7). This is a substantial improvement over its base model (6.7, 4.3, and 0.6, respectively). On LiveCodeBench V6, it scores 51.1, outperforming Magistral Medium's 50.3 and its base model's 0.0. These findings demonstrate that small models can achieve reasoning capabilities comparable to large models, drastically reducing training and inference costs and thereby democratizing advanced AI research.
PDF12511December 2, 2025