LycheeDecode: Beschleunigung der Inferenz von LLMs mit langem Kontext durch hybrides Head-Sparse-Decoding

Zusammenfassung

Die Verbreitung von Large Language Models (LLMs) mit langem Kontext offenbart einen zentralen Engpass: der sich während des Decodierens schnell vergrößernde Key-Value-Cache, der hohe Speicher- und Latenzkosten verursacht. Während neuere Ansätze versuchen, dies durch die gemeinsame Nutzung eines einzigen Satzes von Schlüssel-Tokens über alle Schichten hinweg zu mildern, untergräbt eine solch grobgranulare gemeinsame Nutzung die Modellleistung, da sie die funktionale Diversität der Attention-Heads vernachlässigt. Um dieses Problem zu lösen, schlagen wir LycheeDecode vor, eine effiziente Decodier-Methode, die auf einem feingranularen Hybrid-Head-Attention-Mechanismus basiert und eine hardwareeffiziente Top-k-Selektionsstrategie verwendet. Konkret unterteilt der neuartige, auf HardKuma basierende Mechanismus die Attention-Heads in eine kleine Teilmenge von Retrieval-Heads, die dynamisch entscheidende Tokens identifizieren, und eine Mehrheit von Sparse-Heads, die diese für eine effiziente Berechnung wiederverwenden. Durch umfangreiche Experimente mit führenden Modellen wie Llama3 und Qwen3 in diversen Benchmarks für das Verständnis langer Kontexte (z.B. LongBench, RULER) und komplexes Schlussfolgern (z.B. AIME24, OlympiadBench) zeigen wir, dass LycheeDecode eine generative Qualität erreicht, die mit der Volllast-Baseline vergleichbar ist und diese teilweise sogar übertrifft. Entscheidend ist, dass dies mit einer bis zu 2,7-fachen Beschleunigung bei einer Kontextlänge von 128K erreicht wird. Indem unsere feingranulare Strategie die funktionale Diversität der Attention-Heads bewahrt, überwindet sie die Leistungsengpässe bestehender Methoden und bietet einen leistungsstarken und validierten Weg für eine sowohl effiziente als auch hochwertige Inferenz von LLMs mit langem Kontext.

English

The proliferation of long-context large language models (LLMs) exposes a key bottleneck: the rapidly expanding key-value cache during decoding, which imposes heavy memory and latency costs. While recent approaches attempt to alleviate this by sharing a single set of crucial tokens across layers, such coarse-grained sharing undermines model performance by neglecting the functional diversity of attention heads. To address this, we propose LycheeDecode, an efficient decoding method centered on a fine-grained hybrid-head attention mechanism that employs a hardware-efficient top-k selection strategy. Specifically, the novel HardKuma-based mechanism partitions attention heads into a small subset of retrieval heads that dynamically identify crucial tokens and a majority of sparse heads that reuse them for efficient computation. Through extensive experiments on leading models like Llama3 and Qwen3 across diverse benchmarks for long-context understanding (e.g., LongBench, RULER) and complex reasoning (e.g., AIME24, OlympiadBench), we demonstrate that LycheeDecode achieves generative quality comparable to, and at times surpassing even the full-attention baseline. Crucially, this is accomplished with up to a 2.7x speedup at a 128K context length. By preserving the functional diversity of attention heads, our fine-grained strategy overcomes the performance bottlenecks of existing methods, providing a powerful and validated pathway to both efficient and high-quality long-context LLM inference.

LycheeDecode: Beschleunigung der Inferenz von LLMs mit langem Kontext durch hybrides Head-Sparse-Decoding

LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding

Zusammenfassung

Support