Flux Attention: Atenção Híbrida Consciente do Contexto para Inferência Eficiente em LLMs

Resumo

A complexidade computacional quadrática dos mecanismos de atenção padrão representa um grave gargalo de escalabilidade para LLMs em cenários de contexto longo. Embora os mecanismos de atenção híbrida que combinam Atenção Plena (FA) e Atenção Esparsa (SA) ofereçam uma solução potencial, os métodos existentes geralmente dependem de razões de alocação estáticas que não conseguem acomodar as demandas variáveis de recuperação de diferentes tarefas. Além disso, a esparsidade dinâmica a nível de cabeças frequentemente introduz grave desequilíbrio de carga computacional e longas caudas de sincronização, que dificultam a aceleração por hardware durante a decodagem autoregressiva. Para preencher esta lacuna, introduzimos o Flux Attention, uma estrutura consciente do contexto que otimiza dinamicamente o cálculo de atenção a nível de camada. Ao integrar um Roteador de Camada leve em LLMs pré-treinados e congelados, o método proposto encaminha adaptativamente cada camada para FA ou SA com base no contexto de entrada. Este roteamento por camada preserva a recuperação de informação de alta fidelidade, enquanto garante acesso contíguo à memória, traduzindo reduções teóricas de computação em acelerações práticas de tempo de execução. Como uma abordagem eficiente em parâmetros, nossa estrutura requer apenas 12 horas de treinamento em 8 GPUs A800. Experimentos extensos em múltiplos benchmarks de contexto longo e raciocínio matemático demonstram que o Flux Attention alcança um equilíbrio superior entre desempenho e velocidade de inferência em comparação com os modelos de base, com melhorias de velocidade de até 2,8× e 2,0× nas fases de preenchimento e decodagem, respectivamente.

English

The quadratic computational complexity of standard attention mechanisms presents a severe scalability bottleneck for LLMs in long-context scenarios. While hybrid attention mechanisms combining Full Attention (FA) and Sparse Attention (SA) offer a potential solution, existing methods typically rely on static allocation ratios that fail to accommodate the variable retrieval demands of different tasks. Furthermore, head-level dynamic sparsity often introduces severe computational load imbalance and synchronization long-tails, which hinder hardware acceleration during autoregressive decoding. To bridge this gap, we introduce Flux Attention, a context-aware framework that dynamically optimizes attention computation at the layer level. By integrating a lightweight Layer Router into frozen pretrained LLMs, the proposed method adaptively routes each layer to FA or SA based on the input context. This layer-wise routing preserves high-fidelity information retrieval while ensuring contiguous memory access, translating theoretical computational reductions into practical wall-clock speedups. As a parameter-efficient approach, our framework requires only 12 hours of training on 8timesA800 GPUs. Extensive experiments across multiple long-context and mathematical reasoning benchmarks demonstrate that Flux Attention achieves a superior trade-off between performance and inference speed compared with baseline models, with speed improvements of up to 2.8times and 2.0times in the prefill and decode stages.

Flux Attention: Atenção Híbrida Consciente do Contexto para Inferência Eficiente em LLMs

Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

Resumo

Support