ChatPaper.aiChatPaper

LServe : Service efficace de modèles de langage à longues séquences avec une attention éparse unifiée

LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

February 20, 2025
Auteurs: Shang Yang, Junxian Guo, Haotian Tang, Qinghao Hu, Guangxuan Xiao, Jiaming Tang, Yujun Lin, Zhijian Liu, Yao Lu, Song Han
cs.AI

Résumé

Les grands modèles de langage (LLM) ont démontré un potentiel remarquable dans le traitement de longues séquences, mais servir efficacement ces modèles à contexte long reste un défi en raison de la complexité computationnelle quadratique de l'attention lors de l'étape de préremplissage et de l'empreinte mémoire importante du cache KV lors de l'étape de décodage. Pour résoudre ces problèmes, nous présentons LServe, un système efficace qui accélère le service des LLM à longues séquences via une attention hybride et parcimonieuse. Cette méthode unifie différents modèles de parcimonie structurée, adaptés au matériel, pour l'attention de préremplissage et de décodage dans un cadre unique, où les calculs sur les tokens moins importants sont ignorés par blocs. LServe démontre la compatibilité de la parcimonie statique et dynamique dans l'attention des LLM à contexte long. Cette conception permet des accélérations multiplicatives en combinant ces optimisations. Plus précisément, nous convertissons la moitié des têtes d'attention en têtes de streaming quasi gratuites lors des étapes de préremplissage et de décodage. De plus, nous constatons qu'un nombre constant de pages KV est suffisant pour préserver les capacités de contexte long, indépendamment de la longueur du contexte. Nous concevons ensuite une politique de sélection hiérarchique des pages KV qui élagage dynamiquement les pages KV en fonction de la similarité centrée sur la requête. En moyenne, LServe accélère le préremplissage des LLM jusqu'à 2,9x et le décodage de 1,3 à 2,1x par rapport à vLLM, tout en maintenant la précision du contexte long. Le code est disponible à l'adresse https://github.com/mit-han-lab/omniserve.
English
Large language models (LLMs) have shown remarkable potential in processing long sequences, yet efficiently serving these long-context models remains challenging due to the quadratic computational complexity of attention in the prefilling stage and the large memory footprint of the KV cache in the decoding stage. To address these issues, we introduce LServe, an efficient system that accelerates long-sequence LLM serving via hybrid sparse attention. This method unifies different hardware-friendly, structured sparsity patterns for both prefilling and decoding attention into a single framework, where computations on less important tokens are skipped block-wise. LServe demonstrates the compatibility of static and dynamic sparsity in long-context LLM attention. This design enables multiplicative speedups by combining these optimizations. Specifically, we convert half of the attention heads to nearly free streaming heads in both the prefilling and decoding stages. Additionally, we find that only a constant number of KV pages is required to preserve long-context capabilities, irrespective of context length. We then design a hierarchical KV page selection policy that dynamically prunes KV pages based on query-centric similarity. On average, LServe accelerates LLM prefilling by up to 2.9x and decoding by 1.3-2.1x over vLLM, maintaining long-context accuracy. Code is released at https://github.com/mit-han-lab/omniserve.

Summary

AI-Generated Summary

PDF132February 21, 2025