ChatPaper.aiChatPaper

T-MAC : Renaissance des CPU via la recherche dans les tables pour le déploiement de LLM à faible précision en périphérie

T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge

June 25, 2024
Auteurs: Jianyu Wei, Shijie Cao, Ting Cao, Lingxiao Ma, Lei Wang, Yanyong Zhang, Mao Yang
cs.AI

Résumé

Le déploiement de modèles de langage de grande taille (LLMs) sur les appareils périphériques devient de plus en plus important pour améliorer l'intelligence embarquée. La quantification des poids est cruciale pour réduire l'empreinte mémoire des LLMs sur ces appareils. Cependant, les LLMs à faible précision nécessitent une multiplication matricielle en précision mixte (mpGEMM) entre des poids de faible précision et des activations de haute précision lors de l'inférence. Les systèmes existants, dépourvus de support natif pour mpGEMM, recourent à la déquantification des poids pour effectuer des calculs en haute précision. Cette approche indirecte peut entraîner une surcharge significative lors de l'inférence. Dans cet article, nous présentons T-MAC, une méthode innovante basée sur des tables de consultation (LUT) conçue pour une inférence efficace des LLMs à faible précision (c'est-à-dire des LLMs avec poids quantifiés) sur les CPU. T-MAC prend directement en charge mpGEMM sans déquantification, tout en éliminant les multiplications et en réduisant les additions nécessaires. Plus précisément, T-MAC transforme la multiplication traditionnelle centrée sur le type de données en une consultation de table bit à bit, et permet une solution mpGEMM unifiée et évolutive. Nos noyaux basés sur LUT évoluent linéairement avec la largeur de bits des poids. Évalué sur des modèles Llama et BitNet à faible précision, T-MAC démontre une augmentation allant jusqu'à 4x du débit et une réduction de 70% de la consommation d'énergie par rapport à llama.cpp. Pour BitNet-b1.58-3B, T-MAC offre un débit de génération de tokens de 30 tokens/s avec un seul cœur et 71 tokens/s avec huit cœurs sur M2-Ultra, et 11 tokens/s sur des appareils plus modestes comme le Raspberry Pi 5, ce qui dépasse significativement la vitesse de lecture moyenne d'un adulte. T-MAC, avec son paradigme de calcul basé sur LUT, ouvre la voie au déploiement pratique des LLMs à faible précision sur des appareils périphériques aux ressources limitées sans compromettre l'efficacité computationnelle. Le système est open-source à l'adresse https://github.com/microsoft/T-MAC.
English
The deployment of Large Language Models (LLMs) on edge devices is increasingly important to enhance on-device intelligence. Weight quantization is crucial for reducing the memory footprint of LLMs on devices. However, low-bit LLMs necessitate mixed precision matrix multiplication (mpGEMM) of low precision weights and high precision activations during inference. Existing systems, lacking native support for mpGEMM, resort to dequantize weights for high precision computation. Such an indirect way can lead to a significant inference overhead. In this paper, we introduce T-MAC, an innovative lookup table(LUT)-based method designed for efficient low-bit LLM (i.e., weight-quantized LLM) inference on CPUs. T-MAC directly supports mpGEMM without dequantization, while simultaneously eliminating multiplications and reducing additions required. Specifically, T-MAC transforms the traditional data-type-centric multiplication to bit-wise table lookup, and enables a unified and scalable mpGEMM solution. Our LUT-based kernels scale linearly to the weight bit-width. Evaluated on low-bit Llama and BitNet models, T-MAC demonstrates up to 4x increase in throughput and 70% reduction in energy consumption compared to llama.cpp. For BitNet-b1.58-3B, T-MAC delivers a token generation throughput of 30 tokens/s with a single core and 71 tokens/s with eight cores on M2-Ultra, and 11 tokens/s on lower-end devices like Raspberry Pi 5, which significantly exceeds the adult average reading speed. T-MAC with LUT-based computing paradigm, paves the way for the practical deployment of low-bit LLMs on resource-constrained edge devices without compromising computational efficiency. The system is open-sourced at https://github.com/microsoft/T-MAC.

Summary

AI-Generated Summary

PDF121November 28, 2024