T-MAC: CPU-renaissance via tabelopzoekingen voor implementatie van low-bit LLM's aan de edge

Samenvatting

De inzet van Large Language Models (LLMs) op edge-apparaten wordt steeds belangrijker om de intelligentie op het apparaat zelf te verbeteren. Gewichtskwantisering is cruciaal om het geheugenverbruik van LLMs op apparaten te verminderen. Echter, vereisen LLMs met een laag aantal bits mixed precision matrixvermenigvuldiging (mpGEMM) van gewichten met lage precisie en activaties met hoge precisie tijdens inferentie. Bestaande systemen, die geen native ondersteuning bieden voor mpGEMM, nemen hun toevlucht tot het dekwantiseren van gewichten voor berekeningen met hoge precisie. Deze indirecte aanpak kan leiden tot een aanzienlijke inferentie-overhead. In dit artikel introduceren we T-MAC, een innovatieve methode gebaseerd op lookup-tabellen (LUT) die is ontworpen voor efficiënte inferentie van LLMs met een laag aantal bits (d.w.z. gewichtskwantisatie LLMs) op CPU's. T-MAC ondersteunt mpGEMM direct zonder dekwantisatie, terwijl het tegelijkertijd vermenigvuldigingen elimineert en het aantal benodigde optellingen reduceert. Specifiek transformeert T-MAC de traditionele, datatype-gerichte vermenigvuldiging naar bitgewijze tabelopzoekingen, en maakt het een uniforme en schaalbare mpGEMM-oplossing mogelijk. Onze LUT-gebaseerde kernels schalen lineair met de bitbreedte van de gewichten. Geëvalueerd op LLM-modellen met een laag aantal bits zoals Llama en BitNet, toont T-MAC een toename in doorvoer van maximaal 4x en een reductie in energieverbruik van 70% in vergelijking met llama.cpp. Voor BitNet-b1.58-3B levert T-MAC een doorvoer van 30 tokens/s met één kern en 71 tokens/s met acht kernen op de M2-Ultra, en 11 tokens/s op minder krachtige apparaten zoals de Raspberry Pi 5, wat aanzienlijk hoger is dan de gemiddelde leessnelheid van een volwassene. T-MAC, met zijn LUT-gebaseerde rekenparadigma, baant de weg voor de praktische inzet van LLMs met een laag aantal bits op resource-beperkte edge-apparaten zonder in te leveren op rekenkundige efficiëntie. Het systeem is open-source beschikbaar op https://github.com/microsoft/T-MAC.

English

The deployment of Large Language Models (LLMs) on edge devices is increasingly important to enhance on-device intelligence. Weight quantization is crucial for reducing the memory footprint of LLMs on devices. However, low-bit LLMs necessitate mixed precision matrix multiplication (mpGEMM) of low precision weights and high precision activations during inference. Existing systems, lacking native support for mpGEMM, resort to dequantize weights for high precision computation. Such an indirect way can lead to a significant inference overhead. In this paper, we introduce T-MAC, an innovative lookup table(LUT)-based method designed for efficient low-bit LLM (i.e., weight-quantized LLM) inference on CPUs. T-MAC directly supports mpGEMM without dequantization, while simultaneously eliminating multiplications and reducing additions required. Specifically, T-MAC transforms the traditional data-type-centric multiplication to bit-wise table lookup, and enables a unified and scalable mpGEMM solution. Our LUT-based kernels scale linearly to the weight bit-width. Evaluated on low-bit Llama and BitNet models, T-MAC demonstrates up to 4x increase in throughput and 70% reduction in energy consumption compared to llama.cpp. For BitNet-b1.58-3B, T-MAC delivers a token generation throughput of 30 tokens/s with a single core and 71 tokens/s with eight cores on M2-Ultra, and 11 tokens/s on lower-end devices like Raspberry Pi 5, which significantly exceeds the adult average reading speed. T-MAC with LUT-based computing paradigm, paves the way for the practical deployment of low-bit LLMs on resource-constrained edge devices without compromising computational efficiency. The system is open-sourced at https://github.com/microsoft/T-MAC.

T-MAC: CPU-renaissance via tabelopzoekingen voor implementatie van low-bit LLM's aan de edge

T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge

Samenvatting

Support