LServe: Effizientes Serving von LLMs mit langen Sequenzen durch vereinheitlichte spärliche Aufmerksamkeit

papers.abstract

Große Sprachmodelle (LLMs) haben ein bemerkenswertes Potenzial bei der Verarbeitung langer Sequenzen gezeigt, doch die effiziente Bereitstellung dieser langkontextfähigen Modelle bleibt aufgrund der quadratischen Rechenkomplexität der Aufmerksamkeit im Prefilling-Stadium und des großen Speicherbedarfs des KV-Caches im Decoding-Stadium eine Herausforderung. Um diese Probleme zu lösen, stellen wir LServe vor, ein effizientes System, das die Bereitstellung von LLMs mit langen Sequenzen durch hybride spärliche Aufmerksamkeit beschleunigt. Diese Methode vereint verschiedene hardwarefreundliche, strukturierte Sparsity-Muster für die Aufmerksamkeit sowohl im Prefilling- als auch im Decoding-Stadium in einem einzigen Framework, bei dem Berechnungen für weniger wichtige Token blockweise übersprungen werden. LServe demonstriert die Kompatibilität von statischer und dynamischer Sparsity in der Aufmerksamkeit von langkontextfähigen LLMs. Dieses Design ermöglicht multiplikative Beschleunigungen durch die Kombination dieser Optimierungen. Konkret wandeln wir die Hälfte der Aufmerksamkeitsköpfe in nahezu kostenlose Streaming-Köpfe sowohl im Prefilling- als auch im Decoding-Stadium um. Zudem stellen wir fest, dass unabhängig von der Kontextlänge nur eine konstante Anzahl von KV-Seiten erforderlich ist, um die langkontextfähigen Fähigkeiten zu erhalten. Wir entwerfen dann eine hierarchische KV-Seitenauswahlpolitik, die KV-Seiten dynamisch basierend auf einer abfragezentrierten Ähnlichkeit beschneidet. Im Durchschnitt beschleunigt LServe das Prefilling von LLMs um bis zu 2,9x und das Decoding um 1,3-2,1x im Vergleich zu vLLM, wobei die Genauigkeit im Langkontext erhalten bleibt. Der Code ist unter https://github.com/mit-han-lab/omniserve veröffentlicht.

English

Large language models (LLMs) have shown remarkable potential in processing long sequences, yet efficiently serving these long-context models remains challenging due to the quadratic computational complexity of attention in the prefilling stage and the large memory footprint of the KV cache in the decoding stage. To address these issues, we introduce LServe, an efficient system that accelerates long-sequence LLM serving via hybrid sparse attention. This method unifies different hardware-friendly, structured sparsity patterns for both prefilling and decoding attention into a single framework, where computations on less important tokens are skipped block-wise. LServe demonstrates the compatibility of static and dynamic sparsity in long-context LLM attention. This design enables multiplicative speedups by combining these optimizations. Specifically, we convert half of the attention heads to nearly free streaming heads in both the prefilling and decoding stages. Additionally, we find that only a constant number of KV pages is required to preserve long-context capabilities, irrespective of context length. We then design a hierarchical KV page selection policy that dynamically prunes KV pages based on query-centric similarity. On average, LServe accelerates LLM prefilling by up to 2.9x and decoding by 1.3-2.1x over vLLM, maintaining long-context accuracy. Code is released at https://github.com/mit-han-lab/omniserve.

LServe: Effizientes Serving von LLMs mit langen Sequenzen durch vereinheitlichte spärliche Aufmerksamkeit

LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

papers.abstract

Support