ChatPaper.aiChatPaper

LogQuant : Quantification à 2 bits à distribution logarithmique du cache KV avec préservation supérieure de la précision

LogQuant: Log-Distributed 2-Bit Quantization of KV Cache with Superior Accuracy Preservation

March 25, 2025
Auteurs: Han Chen, Zicong Jiang, Zining Zhang, Bingsheng He, Pingyi Luo, Mian Lu, Yuqiang Chen
cs.AI

Résumé

Nous présentons LogQuant, une technique révolutionnaire de quantification à 2 bits pour le cache KV dans l'inférence des grands modèles de langage (LLM), offrant des économies de mémoire substantielles tout en préservant des performances supérieures. Les méthodes précédentes supposent soit que les tokens ultérieurs sont plus importants, soit tentent de prédire les tokens importants en se basant sur les modèles d'attention antérieurs. Cependant, ces deux approches peuvent entraîner des goulots d'étranglement de performance ou des erreurs de prédiction fréquentes. LogQuant adopte une approche différente. En appliquant un mécanisme de filtrage logarithmique, il compresse sélectivement le cache KV sur l'ensemble du contexte, obtenant de meilleures performances avec la même empreinte mémoire, voire réduite, par rapport aux méthodes existantes. Dans les tests de référence, il améliore le débit de 25 % et augmente la taille des lots de 60 % sans accroître la consommation de mémoire. Pour des tâches complexes telles que les mathématiques et la complétion de code, LogQuant améliore la précision de 40 % à 200 % au même taux de compression, surpassant les techniques comparables. LogQuant s'intègre facilement avec les frameworks d'inférence populaires comme la bibliothèque transformers de Python. L'implémentation est disponible sur https://github.com/Concyclics/LogQuantKV.
English
We introduce LogQuant, a groundbreaking 2-bit quantization technique for KV Cache in large language model (LLM) inference, delivering substantial memory savings while preserving superior performance. Previous methods either assume that later tokens are more important or attempt to predict important tokens based on earlier attention patterns. Both approaches, however, can result in performance bottlenecks or frequent mispredictions. LogQuant takes a different approach. By applying a log-based filtering mechanism, it selectively compresses the KV Cache across the entire context, achieving better performance with the same or even reduced memory footprint compared to existing methods. In benchmark tests, it enhances throughput by 25% and boosts batch size by 60% without increasing memory consumption. For challenging tasks such as Math and Code Completion, LogQuant improves accuracy by 40% to 200% at the same compression ratio, outperforming comparable techniques.LogQuant integrates effortlessly with popular inference frameworks like Python's transformers library. Implementation can be available in https://github.com/Concyclics/LogQuantKV.

Summary

AI-Generated Summary

PDF112March 27, 2025