SmallThinker: Eine Familie effizienter Large Language Models, nativ für die lokale Bereitstellung trainiert

papers.abstract

Während fortschrittliche große Sprachmodelle (LLMs) weiterhin die Grenzen der Fähigkeiten verschieben, bleibt ihre Bereitstellung auf GPU-betriebene Cloud-Infrastrukturen beschränkt. Wir stellen dieses Paradigma mit SmallThinker in Frage, einer Familie von LLMs, die von Grund auf – nicht angepasst – für die einzigartigen Einschränkungen lokaler Geräte entwickelt wurden: schwache Rechenleistung, begrenzter Speicher und langsame Speichermedien. Im Gegensatz zu traditionellen Ansätzen, die hauptsächlich bestehende Modelle für die Cloud komprimieren, entwerfen wir SmallThinker von Grund auf, um innerhalb dieser Grenzen zu gedeihen. Unsere Innovation liegt in einer bereitstellungsbewussten Architektur, die Einschränkungen in Designprinzipien verwandelt. Erstens führen wir eine zweistufige spärliche Struktur ein, die feinkörnige Mixture-of-Experts (MoE) mit spärlichen Feed-Forward-Netzwerken kombiniert und so den Rechenbedarf drastisch reduziert, ohne die Modellkapazität zu opfern. Zweitens überwinden wir den I/O-Engpass langsamer Speichermedien durch einen Pre-Attention-Router, der unser gemeinsam entwickeltes Inferenzsystem dazu befähigt, Expertenparameter aus dem Speicher vorab abzurufen, während die Aufmerksamkeit berechnet wird, und so die Speicherlatenz effektiv zu verbergen, die ansonsten die On-Device-Inferenz behindern würde. Drittens nutzen wir für die Speichereffizienz einen NoPE-RoPE-Hybrid-Mechanismus für spärliche Aufmerksamkeit, um die Anforderungen an den KV-Cache zu reduzieren. Wir veröffentlichen SmallThinker-4B-A0.6B und SmallThinker-21B-A3B, die state-of-the-art Leistungswerte erreichen und sogar größere LLMs übertreffen. Bemerkenswerterweise eliminiert unser gemeinsam entwickeltes System weitgehend die Notwendigkeit teurer GPU-Hardware: Mit Q4_0-Quantisierung übertreffen beide Modelle 20 Tokens/s auf gewöhnlichen Consumer-CPUs, während sie nur 1 GB bzw. 8 GB Speicher verbrauchen. SmallThinker ist öffentlich verfügbar unter hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct und hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.

English

While frontier large language models (LLMs) continue to push capability boundaries, their deployment remains confined to GPU-powered cloud infrastructure. We challenge this paradigm with SmallThinker, a family of LLMs natively designed - not adapted - for the unique constraints of local devices: weak computational power, limited memory, and slow storage. Unlike traditional approaches that mainly compress existing models built for clouds, we architect SmallThinker from the ground up to thrive within these limitations. Our innovation lies in a deployment-aware architecture that transforms constraints into design principles. First, We introduce a two-level sparse structure combining fine-grained Mixture-of-Experts (MoE) with sparse feed-forward networks, drastically reducing computational demands without sacrificing model capacity. Second, to conquer the I/O bottleneck of slow storage, we design a pre-attention router that enables our co-designed inference engine to prefetch expert parameters from storage while computing attention, effectively hiding storage latency that would otherwise cripple on-device inference. Third, for memory efficiency, we utilize NoPE-RoPE hybrid sparse attention mechanism to slash KV cache requirements. We release SmallThinker-4B-A0.6B and SmallThinker-21B-A3B, which achieve state-of-the-art performance scores and even outperform larger LLMs. Remarkably, our co-designed system mostly eliminates the need for expensive GPU hardware: with Q4_0 quantization, both models exceed 20 tokens/s on ordinary consumer CPUs, while consuming only 1GB and 8GB of memory respectively. SmallThinker is publicly available at hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct and hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.

SmallThinker: Eine Familie effizienter Large Language Models, nativ für die lokale Bereitstellung trainiert

SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment

papers.abstract

Support