SmallThinker: Eine Familie effizienter Large Language Models, nativ für die lokale Bereitstellung trainiert
SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment
July 28, 2025
papers.authors: Yixin Song, Zhenliang Xue, Dongliang Wei, Feiyang Chen, Jianxiang Gao, Junchen Liu, Hangyu Liang, Guangshuo Qin, Chengrong Tian, Bo Wen, Longyu Zhao, Xinrui Zheng, Zeyu Mi, Haibo Chen
cs.AI
papers.abstract
Während fortschrittliche große Sprachmodelle (LLMs) weiterhin die Grenzen der Fähigkeiten verschieben, bleibt ihre Bereitstellung auf GPU-betriebene Cloud-Infrastrukturen beschränkt. Wir stellen dieses Paradigma mit SmallThinker in Frage, einer Familie von LLMs, die von Grund auf – nicht angepasst – für die einzigartigen Einschränkungen lokaler Geräte entwickelt wurden: schwache Rechenleistung, begrenzter Speicher und langsame Speichermedien. Im Gegensatz zu traditionellen Ansätzen, die hauptsächlich bestehende Modelle für die Cloud komprimieren, entwerfen wir SmallThinker von Grund auf, um innerhalb dieser Grenzen zu gedeihen. Unsere Innovation liegt in einer bereitstellungsbewussten Architektur, die Einschränkungen in Designprinzipien verwandelt. Erstens führen wir eine zweistufige spärliche Struktur ein, die feinkörnige Mixture-of-Experts (MoE) mit spärlichen Feed-Forward-Netzwerken kombiniert und so den Rechenbedarf drastisch reduziert, ohne die Modellkapazität zu opfern. Zweitens überwinden wir den I/O-Engpass langsamer Speichermedien durch einen Pre-Attention-Router, der unser gemeinsam entwickeltes Inferenzsystem dazu befähigt, Expertenparameter aus dem Speicher vorab abzurufen, während die Aufmerksamkeit berechnet wird, und so die Speicherlatenz effektiv zu verbergen, die ansonsten die On-Device-Inferenz behindern würde. Drittens nutzen wir für die Speichereffizienz einen NoPE-RoPE-Hybrid-Mechanismus für spärliche Aufmerksamkeit, um die Anforderungen an den KV-Cache zu reduzieren. Wir veröffentlichen SmallThinker-4B-A0.6B und SmallThinker-21B-A3B, die state-of-the-art Leistungswerte erreichen und sogar größere LLMs übertreffen. Bemerkenswerterweise eliminiert unser gemeinsam entwickeltes System weitgehend die Notwendigkeit teurer GPU-Hardware: Mit Q4_0-Quantisierung übertreffen beide Modelle 20 Tokens/s auf gewöhnlichen Consumer-CPUs, während sie nur 1 GB bzw. 8 GB Speicher verbrauchen. SmallThinker ist öffentlich verfügbar unter hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct und hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.
English
While frontier large language models (LLMs) continue to push capability
boundaries, their deployment remains confined to GPU-powered cloud
infrastructure. We challenge this paradigm with SmallThinker, a family of LLMs
natively designed - not adapted - for the unique constraints of local devices:
weak computational power, limited memory, and slow storage. Unlike traditional
approaches that mainly compress existing models built for clouds, we architect
SmallThinker from the ground up to thrive within these limitations. Our
innovation lies in a deployment-aware architecture that transforms constraints
into design principles. First, We introduce a two-level sparse structure
combining fine-grained Mixture-of-Experts (MoE) with sparse feed-forward
networks, drastically reducing computational demands without sacrificing model
capacity. Second, to conquer the I/O bottleneck of slow storage, we design a
pre-attention router that enables our co-designed inference engine to prefetch
expert parameters from storage while computing attention, effectively hiding
storage latency that would otherwise cripple on-device inference. Third, for
memory efficiency, we utilize NoPE-RoPE hybrid sparse attention mechanism to
slash KV cache requirements. We release SmallThinker-4B-A0.6B and
SmallThinker-21B-A3B, which achieve state-of-the-art performance scores and
even outperform larger LLMs. Remarkably, our co-designed system mostly
eliminates the need for expensive GPU hardware: with Q4_0 quantization, both
models exceed 20 tokens/s on ordinary consumer CPUs, while consuming only 1GB
and 8GB of memory respectively. SmallThinker is publicly available at
hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct and
hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.