LycheeDecode: Accelerazione dell'Inferenza di LLM con Contesti Lunghi tramite Decodifica Sparsa Ibrida-Head

Abstract

La proliferazione di modelli linguistici di grandi dimensioni (LLM) a contesto lungo rivela un collo di bottiglia fondamentale: l'espansione rapida della cache chiave-valore durante la decodifica, che comporta costi significativi in termini di memoria e latenza. Sebbene approcci recenti tentino di alleviare questo problema condividendo un unico insieme di token cruciali tra i layer, una condivisione così granulare compromette le prestazioni del modello trascurando la diversità funzionale delle teste di attenzione. Per affrontare questa limitazione, proponiamo LycheeDecode, un metodo di decodifica efficiente incentrato su un meccanismo di attenzione ibrida a granularità fine che impiega una strategia di selezione top-k efficiente dal punto di vista hardware. Nello specifico, il nuovo meccanismo basato su HardKuma suddivide le teste di attenzione in un piccolo sottoinsieme di teste di recupero, che identificano dinamicamente i token cruciali, e una maggioranza di teste sparse che li riutilizzano per un calcolo efficiente. Attraverso esperimenti estesi su modelli all'avanguardia come Llama3 e Qwen3, condotti su benchmark diversificati per la comprensione di contesti lunghi (ad es. LongBench, RULER) e il ragionamento complesso (ad es. AIME24, OlympiadBench), dimostriamo che LycheeDecode raggiunge una qualità generativa paragonabile, e in alcuni casi superiore, persino al baseline di attenzione completa. Crucialmente, questo risultato è ottenuto con un speedup fino a 2,7x per una lunghezza di contesto di 128K. Preservando la diversità funzionale delle teste di attenzione, la nostra strategia a granularità fine supera i colli di bottiglia prestazionali dei metodi esistenti, fornendo un percorso validato e potente per un'inferenza LLM efficiente e di alta qualità in contesti lunghi.

English

The proliferation of long-context large language models (LLMs) exposes a key bottleneck: the rapidly expanding key-value cache during decoding, which imposes heavy memory and latency costs. While recent approaches attempt to alleviate this by sharing a single set of crucial tokens across layers, such coarse-grained sharing undermines model performance by neglecting the functional diversity of attention heads. To address this, we propose LycheeDecode, an efficient decoding method centered on a fine-grained hybrid-head attention mechanism that employs a hardware-efficient top-k selection strategy. Specifically, the novel HardKuma-based mechanism partitions attention heads into a small subset of retrieval heads that dynamically identify crucial tokens and a majority of sparse heads that reuse them for efficient computation. Through extensive experiments on leading models like Llama3 and Qwen3 across diverse benchmarks for long-context understanding (e.g., LongBench, RULER) and complex reasoning (e.g., AIME24, OlympiadBench), we demonstrate that LycheeDecode achieves generative quality comparable to, and at times surpassing even the full-attention baseline. Crucially, this is accomplished with up to a 2.7x speedup at a 128K context length. By preserving the functional diversity of attention heads, our fine-grained strategy overcomes the performance bottlenecks of existing methods, providing a powerful and validated pathway to both efficient and high-quality long-context LLM inference.

LycheeDecode: Accelerazione dell'Inferenza di LLM con Contesti Lunghi tramite Decodifica Sparsa Ibrida-Head

LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding

Abstract

Support