SmallThinker: Семейство эффективных больших языковых моделей, изначально обученных для локального развертывания

Аннотация

В то время как передовые большие языковые модели (LLM) продолжают расширять границы возможностей, их развертывание остается ограниченным облачной инфраструктурой, оснащенной GPU. Мы бросаем вызов этой парадигме с помощью SmallThinker — семейства LLM, изначально разработанных — а не адаптированных — для уникальных ограничений локальных устройств: слабой вычислительной мощности, ограниченной памяти и медленного хранилища. В отличие от традиционных подходов, которые в основном сжимают существующие модели, созданные для облаков, мы проектируем SmallThinker с нуля, чтобы он эффективно работал в рамках этих ограничений. Наша инновация заключается в архитектуре, учитывающей развертывание, которая превращает ограничения в принципы проектирования. Во-первых, мы представляем двухуровневую разреженную структуру, сочетающую мелкозернистую смесь экспертов (MoE) с разреженными полносвязными сетями, что значительно снижает вычислительные требования без ущерба для емкости модели. Во-вторых, чтобы преодолеть узкое место ввода-вывода медленного хранилища, мы разрабатываем предварительный маршрутизатор внимания, который позволяет нашему совместно спроектированному механизму вывода предварительно загружать параметры экспертов из хранилища во время вычисления внимания, эффективно скрывая задержку хранилища, которая в противном случае парализовала бы вывод на устройстве. В-третьих, для эффективного использования памяти мы применяем гибридный механизм разреженного внимания NoPE-RoPE, который значительно сокращает требования к кэшу ключей и значений. Мы выпускаем SmallThinker-4B-A0.6B и SmallThinker-21B-A3B, которые достигают наивысших показателей производительности и даже превосходят более крупные LLM. Примечательно, что наша совместно разработанная система практически устраняет необходимость в дорогостоящем оборудовании GPU: при квантовании Q4_0 обе модели превышают 20 токенов/с на обычных потребительских процессорах, потребляя при этом всего 1 ГБ и 8 ГБ памяти соответственно. SmallThinker доступен публично по адресам hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct и hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.

English

While frontier large language models (LLMs) continue to push capability boundaries, their deployment remains confined to GPU-powered cloud infrastructure. We challenge this paradigm with SmallThinker, a family of LLMs natively designed - not adapted - for the unique constraints of local devices: weak computational power, limited memory, and slow storage. Unlike traditional approaches that mainly compress existing models built for clouds, we architect SmallThinker from the ground up to thrive within these limitations. Our innovation lies in a deployment-aware architecture that transforms constraints into design principles. First, We introduce a two-level sparse structure combining fine-grained Mixture-of-Experts (MoE) with sparse feed-forward networks, drastically reducing computational demands without sacrificing model capacity. Second, to conquer the I/O bottleneck of slow storage, we design a pre-attention router that enables our co-designed inference engine to prefetch expert parameters from storage while computing attention, effectively hiding storage latency that would otherwise cripple on-device inference. Third, for memory efficiency, we utilize NoPE-RoPE hybrid sparse attention mechanism to slash KV cache requirements. We release SmallThinker-4B-A0.6B and SmallThinker-21B-A3B, which achieve state-of-the-art performance scores and even outperform larger LLMs. Remarkably, our co-designed system mostly eliminates the need for expensive GPU hardware: with Q4_0 quantization, both models exceed 20 tokens/s on ordinary consumer CPUs, while consuming only 1GB and 8GB of memory respectively. SmallThinker is publicly available at hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct and hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.

SmallThinker: Семейство эффективных больших языковых моделей, изначально обученных для локального развертывания

SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment

Аннотация

Support