LServe: Servizio Efficiente per Modelli Linguistici a Lunghe Sequenze con Attenzione Sparsa Unificata

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un potenziale notevole nell'elaborazione di sequenze lunghe, ma servire in modo efficiente questi modelli con contesti estesi rimane una sfida a causa della complessità computazionale quadratica dell'attenzione nella fase di prefilling e dell'ampio footprint di memoria della cache KV nella fase di decodifica. Per affrontare questi problemi, introduciamo LServe, un sistema efficiente che accelera il servizio di LLM con sequenze lunghe tramite un'attenzione sparsa ibrida. Questo metodo unifica diversi schemi di sparsità strutturata, compatibili con l'hardware, per l'attenzione sia nella fase di prefilling che di decodifica, in un unico framework, dove i calcoli sui token meno importanti vengono saltati a livello di blocco. LServe dimostra la compatibilità della sparsità statica e dinamica nell'attenzione degli LLM con contesti lunghi. Questo design consente accelerazioni moltiplicative combinando queste ottimizzazioni. Nello specifico, convertiamo metà delle teste di attenzione in teste di streaming quasi gratuite sia nella fase di prefilling che di decodifica. Inoltre, scopriamo che è necessario solo un numero costante di pagine KV per preservare le capacità di contesto lungo, indipendentemente dalla lunghezza del contesto. Progettiamo quindi una politica di selezione gerarchica delle pagine KV che pota dinamicamente le pagine KV in base alla similarità centrata sulla query. In media, LServe accelera il prefilling degli LLM fino a 2,9x e la decodifica di 1,3-2,1x rispetto a vLLM, mantenendo l'accuratezza del contesto lungo. Il codice è disponibile all'indirizzo https://github.com/mit-han-lab/omniserve.

English

Large language models (LLMs) have shown remarkable potential in processing long sequences, yet efficiently serving these long-context models remains challenging due to the quadratic computational complexity of attention in the prefilling stage and the large memory footprint of the KV cache in the decoding stage. To address these issues, we introduce LServe, an efficient system that accelerates long-sequence LLM serving via hybrid sparse attention. This method unifies different hardware-friendly, structured sparsity patterns for both prefilling and decoding attention into a single framework, where computations on less important tokens are skipped block-wise. LServe demonstrates the compatibility of static and dynamic sparsity in long-context LLM attention. This design enables multiplicative speedups by combining these optimizations. Specifically, we convert half of the attention heads to nearly free streaming heads in both the prefilling and decoding stages. Additionally, we find that only a constant number of KV pages is required to preserve long-context capabilities, irrespective of context length. We then design a hierarchical KV page selection policy that dynamically prunes KV pages based on query-centric similarity. On average, LServe accelerates LLM prefilling by up to 2.9x and decoding by 1.3-2.1x over vLLM, maintaining long-context accuracy. Code is released at https://github.com/mit-han-lab/omniserve.

LServe: Servizio Efficiente per Modelli Linguistici a Lunghe Sequenze con Attenzione Sparsa Unificata

LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

Abstract

Support