SmallThinker: Семейство эффективных больших языковых моделей, изначально обученных для локального развертывания
SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment
July 28, 2025
Авторы: Yixin Song, Zhenliang Xue, Dongliang Wei, Feiyang Chen, Jianxiang Gao, Junchen Liu, Hangyu Liang, Guangshuo Qin, Chengrong Tian, Bo Wen, Longyu Zhao, Xinrui Zheng, Zeyu Mi, Haibo Chen
cs.AI
Аннотация
В то время как передовые большие языковые модели (LLM) продолжают расширять границы возможностей, их развертывание остается ограниченным облачной инфраструктурой, оснащенной GPU. Мы бросаем вызов этой парадигме с помощью SmallThinker — семейства LLM, изначально разработанных — а не адаптированных — для уникальных ограничений локальных устройств: слабой вычислительной мощности, ограниченной памяти и медленного хранилища. В отличие от традиционных подходов, которые в основном сжимают существующие модели, созданные для облаков, мы проектируем SmallThinker с нуля, чтобы он эффективно работал в рамках этих ограничений. Наша инновация заключается в архитектуре, учитывающей развертывание, которая превращает ограничения в принципы проектирования. Во-первых, мы представляем двухуровневую разреженную структуру, сочетающую мелкозернистую смесь экспертов (MoE) с разреженными полносвязными сетями, что значительно снижает вычислительные требования без ущерба для емкости модели. Во-вторых, чтобы преодолеть узкое место ввода-вывода медленного хранилища, мы разрабатываем предварительный маршрутизатор внимания, который позволяет нашему совместно спроектированному механизму вывода предварительно загружать параметры экспертов из хранилища во время вычисления внимания, эффективно скрывая задержку хранилища, которая в противном случае парализовала бы вывод на устройстве. В-третьих, для эффективного использования памяти мы применяем гибридный механизм разреженного внимания NoPE-RoPE, который значительно сокращает требования к кэшу ключей и значений. Мы выпускаем SmallThinker-4B-A0.6B и SmallThinker-21B-A3B, которые достигают наивысших показателей производительности и даже превосходят более крупные LLM. Примечательно, что наша совместно разработанная система практически устраняет необходимость в дорогостоящем оборудовании GPU: при квантовании Q4_0 обе модели превышают 20 токенов/с на обычных потребительских процессорах, потребляя при этом всего 1 ГБ и 8 ГБ памяти соответственно. SmallThinker доступен публично по адресам hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct и hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.
English
While frontier large language models (LLMs) continue to push capability
boundaries, their deployment remains confined to GPU-powered cloud
infrastructure. We challenge this paradigm with SmallThinker, a family of LLMs
natively designed - not adapted - for the unique constraints of local devices:
weak computational power, limited memory, and slow storage. Unlike traditional
approaches that mainly compress existing models built for clouds, we architect
SmallThinker from the ground up to thrive within these limitations. Our
innovation lies in a deployment-aware architecture that transforms constraints
into design principles. First, We introduce a two-level sparse structure
combining fine-grained Mixture-of-Experts (MoE) with sparse feed-forward
networks, drastically reducing computational demands without sacrificing model
capacity. Second, to conquer the I/O bottleneck of slow storage, we design a
pre-attention router that enables our co-designed inference engine to prefetch
expert parameters from storage while computing attention, effectively hiding
storage latency that would otherwise cripple on-device inference. Third, for
memory efficiency, we utilize NoPE-RoPE hybrid sparse attention mechanism to
slash KV cache requirements. We release SmallThinker-4B-A0.6B and
SmallThinker-21B-A3B, which achieve state-of-the-art performance scores and
even outperform larger LLMs. Remarkably, our co-designed system mostly
eliminates the need for expensive GPU hardware: with Q4_0 quantization, both
models exceed 20 tokens/s on ordinary consumer CPUs, while consuming only 1GB
and 8GB of memory respectively. SmallThinker is publicly available at
hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct and
hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.