SmallThinker: Uma Família de Modelos de Linguagem Grandes Eficientes Nativamente Treinados para Implantação Local

Resumo

Enquanto os grandes modelos de linguagem (LLMs) de ponta continuam a expandir os limites de capacidade, sua implantação permanece restrita a infraestruturas em nuvem equipadas com GPUs. Desafiamos esse paradigma com o SmallThinker, uma família de LLMs projetada nativamente — e não adaptada — para as restrições únicas de dispositivos locais: poder computacional limitado, memória reduzida e armazenamento lento. Diferente das abordagens tradicionais que principalmente comprimem modelos existentes construídos para nuvens, arquitetamos o SmallThinker desde o início para prosperar dentro dessas limitações. Nossa inovação reside em uma arquitetura consciente da implantação que transforma restrições em princípios de design. Primeiro, introduzimos uma estrutura esparsa de dois níveis que combina Mixture-of-Experts (MoE) de granularidade fina com redes feed-forward esparsas, reduzindo drasticamente as demandas computacionais sem sacrificar a capacidade do modelo. Segundo, para superar o gargalo de E/S do armazenamento lento, projetamos um roteador de pré-atenção que permite ao nosso mecanismo de inferência co-projetado pré-buscar parâmetros de especialistas do armazenamento enquanto calcula a atenção, efetivamente ocultando a latência de armazenamento que, de outra forma, prejudicaria a inferência no dispositivo. Terceiro, para eficiência de memória, utilizamos um mecanismo de atenção esparsa híbrido NoPE-RoPE para reduzir drasticamente os requisitos de cache KV. Lançamos o SmallThinker-4B-A0.6B e o SmallThinker-21B-A3B, que alcançam pontuações de desempenho de última geração e até superam LLMs maiores. Notavelmente, nosso sistema co-projetado elimina em grande parte a necessidade de hardware GPU caro: com quantização Q4_0, ambos os modelos excedem 20 tokens/s em CPUs comuns de consumidor, enquanto consomem apenas 1GB e 8GB de memória, respectivamente. O SmallThinker está disponível publicamente em hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct e hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.

English

While frontier large language models (LLMs) continue to push capability boundaries, their deployment remains confined to GPU-powered cloud infrastructure. We challenge this paradigm with SmallThinker, a family of LLMs natively designed - not adapted - for the unique constraints of local devices: weak computational power, limited memory, and slow storage. Unlike traditional approaches that mainly compress existing models built for clouds, we architect SmallThinker from the ground up to thrive within these limitations. Our innovation lies in a deployment-aware architecture that transforms constraints into design principles. First, We introduce a two-level sparse structure combining fine-grained Mixture-of-Experts (MoE) with sparse feed-forward networks, drastically reducing computational demands without sacrificing model capacity. Second, to conquer the I/O bottleneck of slow storage, we design a pre-attention router that enables our co-designed inference engine to prefetch expert parameters from storage while computing attention, effectively hiding storage latency that would otherwise cripple on-device inference. Third, for memory efficiency, we utilize NoPE-RoPE hybrid sparse attention mechanism to slash KV cache requirements. We release SmallThinker-4B-A0.6B and SmallThinker-21B-A3B, which achieve state-of-the-art performance scores and even outperform larger LLMs. Remarkably, our co-designed system mostly eliminates the need for expensive GPU hardware: with Q4_0 quantization, both models exceed 20 tokens/s on ordinary consumer CPUs, while consuming only 1GB and 8GB of memory respectively. SmallThinker is publicly available at hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct and hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.

SmallThinker: Uma Família de Modelos de Linguagem Grandes Eficientes Nativamente Treinados para Implantação Local

SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment

Resumo

Support