SmallThinker: Uma Família de Modelos de Linguagem Grandes Eficientes Nativamente Treinados para Implantação Local
SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment
July 28, 2025
Autores: Yixin Song, Zhenliang Xue, Dongliang Wei, Feiyang Chen, Jianxiang Gao, Junchen Liu, Hangyu Liang, Guangshuo Qin, Chengrong Tian, Bo Wen, Longyu Zhao, Xinrui Zheng, Zeyu Mi, Haibo Chen
cs.AI
Resumo
Enquanto os grandes modelos de linguagem (LLMs) de ponta continuam a expandir os limites de capacidade, sua implantação permanece restrita a infraestruturas em nuvem equipadas com GPUs. Desafiamos esse paradigma com o SmallThinker, uma família de LLMs projetada nativamente — e não adaptada — para as restrições únicas de dispositivos locais: poder computacional limitado, memória reduzida e armazenamento lento. Diferente das abordagens tradicionais que principalmente comprimem modelos existentes construídos para nuvens, arquitetamos o SmallThinker desde o início para prosperar dentro dessas limitações. Nossa inovação reside em uma arquitetura consciente da implantação que transforma restrições em princípios de design. Primeiro, introduzimos uma estrutura esparsa de dois níveis que combina Mixture-of-Experts (MoE) de granularidade fina com redes feed-forward esparsas, reduzindo drasticamente as demandas computacionais sem sacrificar a capacidade do modelo. Segundo, para superar o gargalo de E/S do armazenamento lento, projetamos um roteador de pré-atenção que permite ao nosso mecanismo de inferência co-projetado pré-buscar parâmetros de especialistas do armazenamento enquanto calcula a atenção, efetivamente ocultando a latência de armazenamento que, de outra forma, prejudicaria a inferência no dispositivo. Terceiro, para eficiência de memória, utilizamos um mecanismo de atenção esparsa híbrido NoPE-RoPE para reduzir drasticamente os requisitos de cache KV. Lançamos o SmallThinker-4B-A0.6B e o SmallThinker-21B-A3B, que alcançam pontuações de desempenho de última geração e até superam LLMs maiores. Notavelmente, nosso sistema co-projetado elimina em grande parte a necessidade de hardware GPU caro: com quantização Q4_0, ambos os modelos excedem 20 tokens/s em CPUs comuns de consumidor, enquanto consomem apenas 1GB e 8GB de memória, respectivamente. O SmallThinker está disponível publicamente em hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct e hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.
English
While frontier large language models (LLMs) continue to push capability
boundaries, their deployment remains confined to GPU-powered cloud
infrastructure. We challenge this paradigm with SmallThinker, a family of LLMs
natively designed - not adapted - for the unique constraints of local devices:
weak computational power, limited memory, and slow storage. Unlike traditional
approaches that mainly compress existing models built for clouds, we architect
SmallThinker from the ground up to thrive within these limitations. Our
innovation lies in a deployment-aware architecture that transforms constraints
into design principles. First, We introduce a two-level sparse structure
combining fine-grained Mixture-of-Experts (MoE) with sparse feed-forward
networks, drastically reducing computational demands without sacrificing model
capacity. Second, to conquer the I/O bottleneck of slow storage, we design a
pre-attention router that enables our co-designed inference engine to prefetch
expert parameters from storage while computing attention, effectively hiding
storage latency that would otherwise cripple on-device inference. Third, for
memory efficiency, we utilize NoPE-RoPE hybrid sparse attention mechanism to
slash KV cache requirements. We release SmallThinker-4B-A0.6B and
SmallThinker-21B-A3B, which achieve state-of-the-art performance scores and
even outperform larger LLMs. Remarkably, our co-designed system mostly
eliminates the need for expensive GPU hardware: with Q4_0 quantization, both
models exceed 20 tokens/s on ordinary consumer CPUs, while consuming only 1GB
and 8GB of memory respectively. SmallThinker is publicly available at
hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct and
hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.