SmallThinker: ローカル展開向けにネイティブでトレーニングされた効率的な大規模言語モデルファミリー
SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment
July 28, 2025
著者: Yixin Song, Zhenliang Xue, Dongliang Wei, Feiyang Chen, Jianxiang Gao, Junchen Liu, Hangyu Liang, Guangshuo Qin, Chengrong Tian, Bo Wen, Longyu Zhao, Xinrui Zheng, Zeyu Mi, Haibo Chen
cs.AI
要旨
最先端の大規模言語モデル(LLM)が能力の限界を押し広げ続ける一方で、その展開はGPUを搭載したクラウドインフラに限定されています。私たちはこのパラダイムに挑戦し、ローカルデバイスの固有の制約——弱い計算能力、限られたメモリ、低速なストレージ——に合わせてネイティブに設計された(適応されたのではない)LLMファミリーであるSmallThinkerを提案します。クラウド向けに構築された既存のモデルを主に圧縮する従来のアプローチとは異なり、私たちはSmallThinkerをこれらの制約内で最大限に機能するようゼロから設計しました。私たちの革新は、制約を設計原則に変換する展開を意識したアーキテクチャにあります。まず、細粒度のMixture-of-Experts(MoE)とスパースフィードフォワードネットワークを組み合わせた2段階のスパース構造を導入し、モデルの能力を損なうことなく計算需要を大幅に削減します。次に、低速なストレージのI/Oボトルネックを克服するため、事前注意ルーターを設計し、注意を計算しながらストレージからエキスパートパラメータをプリフェッチする共設計された推論エンジンを可能にし、オンデバイス推論を妨げるストレージレイテンシを効果的に隠蔽します。第三に、メモリ効率のために、NoPE-RoPEハイブリッドスパース注意メカニズムを活用してKVキャッシュの要件を大幅に削減します。私たちはSmallThinker-4B-A0.6BとSmallThinker-21B-A3Bをリリースし、これらは最先端のパフォーマンススコアを達成し、より大きなLLMを凌駕することさえあります。驚くべきことに、私たちの共設計されたシステムは高価なGPUハードウェアの必要性をほとんど排除しています:Q4_0量子化により、両モデルは一般的な消費者向けCPUで20トークン/秒を超え、それぞれ1GBと8GBのメモリしか消費しません。SmallThinkerはhf.co/PowerInfer/SmallThinker-4BA0.6B-Instructとhf.co/PowerInfer/SmallThinker-21BA3B-Instructで公開されています。
English
While frontier large language models (LLMs) continue to push capability
boundaries, their deployment remains confined to GPU-powered cloud
infrastructure. We challenge this paradigm with SmallThinker, a family of LLMs
natively designed - not adapted - for the unique constraints of local devices:
weak computational power, limited memory, and slow storage. Unlike traditional
approaches that mainly compress existing models built for clouds, we architect
SmallThinker from the ground up to thrive within these limitations. Our
innovation lies in a deployment-aware architecture that transforms constraints
into design principles. First, We introduce a two-level sparse structure
combining fine-grained Mixture-of-Experts (MoE) with sparse feed-forward
networks, drastically reducing computational demands without sacrificing model
capacity. Second, to conquer the I/O bottleneck of slow storage, we design a
pre-attention router that enables our co-designed inference engine to prefetch
expert parameters from storage while computing attention, effectively hiding
storage latency that would otherwise cripple on-device inference. Third, for
memory efficiency, we utilize NoPE-RoPE hybrid sparse attention mechanism to
slash KV cache requirements. We release SmallThinker-4B-A0.6B and
SmallThinker-21B-A3B, which achieve state-of-the-art performance scores and
even outperform larger LLMs. Remarkably, our co-designed system mostly
eliminates the need for expensive GPU hardware: with Q4_0 quantization, both
models exceed 20 tokens/s on ordinary consumer CPUs, while consuming only 1GB
and 8GB of memory respectively. SmallThinker is publicly available at
hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct and
hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.