Flux Attention: Attenzione Ibrida Consapevole del Contesto per Inferenza Efficiente di LLM

Abstract

La complessità computazionale quadratica dei meccanismi di attenzione standard rappresenta un grave collo di bottiglia per la scalabilità degli LLM negli scenari a contesto lungo. Sebbene i meccanismi di attenzione ibrida che combinano Attenzione Completa (FA) e Attenzione Sparsa (SA) offrano una potenziale soluzione, i metodi esistenti si basano tipicamente su rapporti di allocazione statici che non riescono ad adattarsi alle esigenze variabili di recupero delle informazioni di diversi compiti. Inoltre, la sparsità dinamica a livello di testina introduce spesso uno squilibrio severo del carico computazionale e code di sincronizzazione, che ostacolano l'accelerazione hardware durante la decodifica autoregressiva. Per colmare questa lacuna, introduciamo Flux Attention, un framework context-aware che ottimizza dinamicamente il calcolo dell'attenzione a livello di layer. Integrando un Layer Router leggero in LLM preaddestrati e congelati, il metodo proposto instrada adattivamente ogni layer verso FA o SA in base al contesto di input. Questo instradamento per layer preserva un recupero delle informazioni ad alta fedeltà garantendo al contempo accessi alla memoria contigui, trasformando le riduzioni computazionali teoriche in accelerazioni pratiche del tempo di esecuzione. Come approccio efficiente in termini di parametri, il nostro framework richiede solo 12 ore di addestramento su 8 GPU A800. Esperimenti estesi su molteplici benchmark di contesto lungo e ragionamento matematico dimostrano che Flux Attention raggiunge un compromesso superiore tra prestazioni e velocità di inferenza rispetto ai modelli baseline, con miglioramenti della velocità fino a 2,8 volte e 2,0 volte rispettivamente nelle fasi di prefill e decode.

English

The quadratic computational complexity of standard attention mechanisms presents a severe scalability bottleneck for LLMs in long-context scenarios. While hybrid attention mechanisms combining Full Attention (FA) and Sparse Attention (SA) offer a potential solution, existing methods typically rely on static allocation ratios that fail to accommodate the variable retrieval demands of different tasks. Furthermore, head-level dynamic sparsity often introduces severe computational load imbalance and synchronization long-tails, which hinder hardware acceleration during autoregressive decoding. To bridge this gap, we introduce Flux Attention, a context-aware framework that dynamically optimizes attention computation at the layer level. By integrating a lightweight Layer Router into frozen pretrained LLMs, the proposed method adaptively routes each layer to FA or SA based on the input context. This layer-wise routing preserves high-fidelity information retrieval while ensuring contiguous memory access, translating theoretical computational reductions into practical wall-clock speedups. As a parameter-efficient approach, our framework requires only 12 hours of training on 8timesA800 GPUs. Extensive experiments across multiple long-context and mathematical reasoning benchmarks demonstrate that Flux Attention achieves a superior trade-off between performance and inference speed compared with baseline models, with speed improvements of up to 2.8times and 2.0times in the prefill and decode stages.

Flux Attention: Attenzione Ibrida Consapevole del Contesto per Inferenza Efficiente di LLM

Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

Abstract

Support