SmallThinker : Une famille de modèles de langage efficaces et de grande taille, entraînés nativement pour un déploiement local
SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment
July 28, 2025
papers.authors: Yixin Song, Zhenliang Xue, Dongliang Wei, Feiyang Chen, Jianxiang Gao, Junchen Liu, Hangyu Liang, Guangshuo Qin, Chengrong Tian, Bo Wen, Longyu Zhao, Xinrui Zheng, Zeyu Mi, Haibo Chen
cs.AI
papers.abstract
Alors que les grands modèles de langage (LLM) de pointe continuent de repousser les limites des capacités, leur déploiement reste confiné à des infrastructures cloud équipées de GPU. Nous remettons en cause ce paradigme avec SmallThinker, une famille de LLM conçus nativement - et non adaptés - pour les contraintes uniques des appareils locaux : puissance de calcul limitée, mémoire restreinte et stockage lent. Contrairement aux approches traditionnelles qui se contentent principalement de compresser des modèles existants conçus pour le cloud, nous architecturons SmallThinker dès la base pour prospérer dans ces limites. Notre innovation réside dans une architecture consciente du déploiement qui transforme les contraintes en principes de conception. Premièrement, nous introduisons une structure clairsemée à deux niveaux combinant un mélange d'experts (MoE) à granularité fine avec des réseaux feed-forward clairsemés, réduisant drastiquement les exigences de calcul sans sacrifier la capacité du modèle. Deuxièmement, pour surmonter le goulot d'étranglement des E/S dû au stockage lent, nous concevons un routeur pré-attention qui permet à notre moteur d'inférence co-conçu de précharger les paramètres des experts depuis le stockage tout en calculant l'attention, masquant efficacement la latence du stockage qui autrement handicaperait l'inférence sur appareil. Troisièmement, pour l'efficacité mémoire, nous utilisons un mécanisme d'attention clairsemée hybride NoPE-RoPE pour réduire les besoins en cache KV. Nous publions SmallThinker-4B-A0.6B et SmallThinker-21B-A3B, qui atteignent des scores de performance à l'état de l'art et surpassent même des LLM plus volumineux. Remarquablement, notre système co-conçu élimine en grande partie le besoin de matériel GPU coûteux : avec une quantification Q4_0, les deux modèles dépassent 20 tokens/s sur des CPU grand public ordinaires, tout en ne consommant que 1 Go et 8 Go de mémoire respectivement. SmallThinker est disponible publiquement à hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct et hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.
English
While frontier large language models (LLMs) continue to push capability
boundaries, their deployment remains confined to GPU-powered cloud
infrastructure. We challenge this paradigm with SmallThinker, a family of LLMs
natively designed - not adapted - for the unique constraints of local devices:
weak computational power, limited memory, and slow storage. Unlike traditional
approaches that mainly compress existing models built for clouds, we architect
SmallThinker from the ground up to thrive within these limitations. Our
innovation lies in a deployment-aware architecture that transforms constraints
into design principles. First, We introduce a two-level sparse structure
combining fine-grained Mixture-of-Experts (MoE) with sparse feed-forward
networks, drastically reducing computational demands without sacrificing model
capacity. Second, to conquer the I/O bottleneck of slow storage, we design a
pre-attention router that enables our co-designed inference engine to prefetch
expert parameters from storage while computing attention, effectively hiding
storage latency that would otherwise cripple on-device inference. Third, for
memory efficiency, we utilize NoPE-RoPE hybrid sparse attention mechanism to
slash KV cache requirements. We release SmallThinker-4B-A0.6B and
SmallThinker-21B-A3B, which achieve state-of-the-art performance scores and
even outperform larger LLMs. Remarkably, our co-designed system mostly
eliminates the need for expensive GPU hardware: with Q4_0 quantization, both
models exceed 20 tokens/s on ordinary consumer CPUs, while consuming only 1GB
and 8GB of memory respectively. SmallThinker is publicly available at
hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct and
hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.