SmallThinker : Une famille de modèles de langage efficaces et de grande taille, entraînés nativement pour un déploiement local

papers.abstract

Alors que les grands modèles de langage (LLM) de pointe continuent de repousser les limites des capacités, leur déploiement reste confiné à des infrastructures cloud équipées de GPU. Nous remettons en cause ce paradigme avec SmallThinker, une famille de LLM conçus nativement - et non adaptés - pour les contraintes uniques des appareils locaux : puissance de calcul limitée, mémoire restreinte et stockage lent. Contrairement aux approches traditionnelles qui se contentent principalement de compresser des modèles existants conçus pour le cloud, nous architecturons SmallThinker dès la base pour prospérer dans ces limites. Notre innovation réside dans une architecture consciente du déploiement qui transforme les contraintes en principes de conception. Premièrement, nous introduisons une structure clairsemée à deux niveaux combinant un mélange d'experts (MoE) à granularité fine avec des réseaux feed-forward clairsemés, réduisant drastiquement les exigences de calcul sans sacrifier la capacité du modèle. Deuxièmement, pour surmonter le goulot d'étranglement des E/S dû au stockage lent, nous concevons un routeur pré-attention qui permet à notre moteur d'inférence co-conçu de précharger les paramètres des experts depuis le stockage tout en calculant l'attention, masquant efficacement la latence du stockage qui autrement handicaperait l'inférence sur appareil. Troisièmement, pour l'efficacité mémoire, nous utilisons un mécanisme d'attention clairsemée hybride NoPE-RoPE pour réduire les besoins en cache KV. Nous publions SmallThinker-4B-A0.6B et SmallThinker-21B-A3B, qui atteignent des scores de performance à l'état de l'art et surpassent même des LLM plus volumineux. Remarquablement, notre système co-conçu élimine en grande partie le besoin de matériel GPU coûteux : avec une quantification Q4_0, les deux modèles dépassent 20 tokens/s sur des CPU grand public ordinaires, tout en ne consommant que 1 Go et 8 Go de mémoire respectivement. SmallThinker est disponible publiquement à hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct et hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.

English

While frontier large language models (LLMs) continue to push capability boundaries, their deployment remains confined to GPU-powered cloud infrastructure. We challenge this paradigm with SmallThinker, a family of LLMs natively designed - not adapted - for the unique constraints of local devices: weak computational power, limited memory, and slow storage. Unlike traditional approaches that mainly compress existing models built for clouds, we architect SmallThinker from the ground up to thrive within these limitations. Our innovation lies in a deployment-aware architecture that transforms constraints into design principles. First, We introduce a two-level sparse structure combining fine-grained Mixture-of-Experts (MoE) with sparse feed-forward networks, drastically reducing computational demands without sacrificing model capacity. Second, to conquer the I/O bottleneck of slow storage, we design a pre-attention router that enables our co-designed inference engine to prefetch expert parameters from storage while computing attention, effectively hiding storage latency that would otherwise cripple on-device inference. Third, for memory efficiency, we utilize NoPE-RoPE hybrid sparse attention mechanism to slash KV cache requirements. We release SmallThinker-4B-A0.6B and SmallThinker-21B-A3B, which achieve state-of-the-art performance scores and even outperform larger LLMs. Remarkably, our co-designed system mostly eliminates the need for expensive GPU hardware: with Q4_0 quantization, both models exceed 20 tokens/s on ordinary consumer CPUs, while consuming only 1GB and 8GB of memory respectively. SmallThinker is publicly available at hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct and hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.

SmallThinker : Une famille de modèles de langage efficaces et de grande taille, entraînés nativement pour un déploiement local

SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment

papers.abstract

Support