Flux Attention: Kontextbewusste hybride Aufmerksamkeit für effiziente Inferenz von großen Sprachmodellen

Zusammenfassung

Die quadratische Rechenkomplexität standardmäßiger Aufmerksamkeitsmechanismen stellt ein schwerwiegendes Skalierbarkeitshemmnis für LLMs in Langkontext-Szenarien dar. Obwohl hybride Aufmerksamkeitsmechanismen, die Vollständige Aufmerksamkeit (FA) und Spärliche Aufmerksamkeit (SA) kombinieren, eine mögliche Lösung bieten, basieren bestehende Methoden typischerweise auf statischen Zuordnungsverhältnissen, die den variablen Abrufbedarf unterschiedlicher Aufgaben nicht abdecken können. Darüber hinaus führt dynamische Sparsity auf Ebene der Aufmerksamkeitsköpfe häufig zu erheblicher Rechenlastungleichverteilung und Synchronisations-Long-Tails, was Hardwarebeschleunigung während des autoregressiven Decodierens behindert. Um diese Lücke zu schließen, stellen wir Flux Attention vor, ein kontextbewusstes Framework, das die Aufmerksamkeitsberechnung dynamisch auf Ebene der Modellebenen optimiert. Durch die Integration eines leichten Layer Routers in eingefrorene vortrainierte LLMs leitet die vorgeschlagene Methode jede Ebene adaptiv basierend auf dem Eingabekontext zu FA oder SA weiter. Dieses schichtenweise Routing bewahrt hochpräzise Informationsabfrage und gewährleistet gleichzeitig kontinuierlichen Speicherzugriff, was theoretische Rechenreduzierungen in praktische Beschleunigungen der Echtzeit-Rechendauer umsetzt. Als parameter-effizienter Ansatz erfordert unser Framework nur 12 Stunden Training auf 8xA800-GPUs. Umfangreiche Experimente über mehrere Langkontext- und mathematische Reasoning-Benchmarks hinweg demonstrieren, dass Flux Attention im Vergleich zu Baseline-Modellen einen überlegenen Kompromiss zwischen Leistung und Inferenzgeschwindigkeit erreicht, mit Geschwindigkeitssteigerungen von bis zu 2,8-fach und 2,0-fach in der Prefill- bzw. Decode-Phase.

English

The quadratic computational complexity of standard attention mechanisms presents a severe scalability bottleneck for LLMs in long-context scenarios. While hybrid attention mechanisms combining Full Attention (FA) and Sparse Attention (SA) offer a potential solution, existing methods typically rely on static allocation ratios that fail to accommodate the variable retrieval demands of different tasks. Furthermore, head-level dynamic sparsity often introduces severe computational load imbalance and synchronization long-tails, which hinder hardware acceleration during autoregressive decoding. To bridge this gap, we introduce Flux Attention, a context-aware framework that dynamically optimizes attention computation at the layer level. By integrating a lightweight Layer Router into frozen pretrained LLMs, the proposed method adaptively routes each layer to FA or SA based on the input context. This layer-wise routing preserves high-fidelity information retrieval while ensuring contiguous memory access, translating theoretical computational reductions into practical wall-clock speedups. As a parameter-efficient approach, our framework requires only 12 hours of training on 8timesA800 GPUs. Extensive experiments across multiple long-context and mathematical reasoning benchmarks demonstrate that Flux Attention achieves a superior trade-off between performance and inference speed compared with baseline models, with speed improvements of up to 2.8times and 2.0times in the prefill and decode stages.

Flux Attention: Kontextbewusste hybride Aufmerksamkeit für effiziente Inferenz von großen Sprachmodellen

Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

Zusammenfassung

Support