ChatPaper.aiChatPaper

SmallThinker: ローカル展開向けにネイティブでトレーニングされた効率的な大規模言語モデルファミリー

SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment

July 28, 2025
著者: Yixin Song, Zhenliang Xue, Dongliang Wei, Feiyang Chen, Jianxiang Gao, Junchen Liu, Hangyu Liang, Guangshuo Qin, Chengrong Tian, Bo Wen, Longyu Zhao, Xinrui Zheng, Zeyu Mi, Haibo Chen
cs.AI

要旨

最先端の大規模言語モデル(LLM)が能力の限界を押し広げ続ける一方で、その展開はGPUを搭載したクラウドインフラに限定されています。私たちはこのパラダイムに挑戦し、ローカルデバイスの固有の制約——弱い計算能力、限られたメモリ、低速なストレージ——に合わせてネイティブに設計された(適応されたのではない)LLMファミリーであるSmallThinkerを提案します。クラウド向けに構築された既存のモデルを主に圧縮する従来のアプローチとは異なり、私たちはSmallThinkerをこれらの制約内で最大限に機能するようゼロから設計しました。私たちの革新は、制約を設計原則に変換する展開を意識したアーキテクチャにあります。まず、細粒度のMixture-of-Experts(MoE)とスパースフィードフォワードネットワークを組み合わせた2段階のスパース構造を導入し、モデルの能力を損なうことなく計算需要を大幅に削減します。次に、低速なストレージのI/Oボトルネックを克服するため、事前注意ルーターを設計し、注意を計算しながらストレージからエキスパートパラメータをプリフェッチする共設計された推論エンジンを可能にし、オンデバイス推論を妨げるストレージレイテンシを効果的に隠蔽します。第三に、メモリ効率のために、NoPE-RoPEハイブリッドスパース注意メカニズムを活用してKVキャッシュの要件を大幅に削減します。私たちはSmallThinker-4B-A0.6BとSmallThinker-21B-A3Bをリリースし、これらは最先端のパフォーマンススコアを達成し、より大きなLLMを凌駕することさえあります。驚くべきことに、私たちの共設計されたシステムは高価なGPUハードウェアの必要性をほとんど排除しています:Q4_0量子化により、両モデルは一般的な消費者向けCPUで20トークン/秒を超え、それぞれ1GBと8GBのメモリしか消費しません。SmallThinkerはhf.co/PowerInfer/SmallThinker-4BA0.6B-Instructとhf.co/PowerInfer/SmallThinker-21BA3B-Instructで公開されています。
English
While frontier large language models (LLMs) continue to push capability boundaries, their deployment remains confined to GPU-powered cloud infrastructure. We challenge this paradigm with SmallThinker, a family of LLMs natively designed - not adapted - for the unique constraints of local devices: weak computational power, limited memory, and slow storage. Unlike traditional approaches that mainly compress existing models built for clouds, we architect SmallThinker from the ground up to thrive within these limitations. Our innovation lies in a deployment-aware architecture that transforms constraints into design principles. First, We introduce a two-level sparse structure combining fine-grained Mixture-of-Experts (MoE) with sparse feed-forward networks, drastically reducing computational demands without sacrificing model capacity. Second, to conquer the I/O bottleneck of slow storage, we design a pre-attention router that enables our co-designed inference engine to prefetch expert parameters from storage while computing attention, effectively hiding storage latency that would otherwise cripple on-device inference. Third, for memory efficiency, we utilize NoPE-RoPE hybrid sparse attention mechanism to slash KV cache requirements. We release SmallThinker-4B-A0.6B and SmallThinker-21B-A3B, which achieve state-of-the-art performance scores and even outperform larger LLMs. Remarkably, our co-designed system mostly eliminates the need for expensive GPU hardware: with Q4_0 quantization, both models exceed 20 tokens/s on ordinary consumer CPUs, while consuming only 1GB and 8GB of memory respectively. SmallThinker is publicly available at hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct and hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.
PDF392July 29, 2025