Atención de Flujo: Atención Híbrida Consciente del Contexto para la Inferencia Eficiente de Modelos de Lenguaje Grandes

Resumen

La complejidad computacional cuadrática de los mecanismos de atención estándar representa un severo cuello de botella de escalabilidad para los LLM en escenarios de contexto largo. Si bien los mecanismos de atención híbridos que combinan Atención Completa (FA) y Atención Dispersa (SA) ofrecen una solución potencial, los métodos existentes suelen depender de ratios de asignación estáticos que no logran adaptarse a las demandas variables de recuperación de información de las diferentes tareas. Además, la dispersión dinámica a nivel de cabezales a menudo introduce un severo desequilibrio en la carga computacional y largas colas de sincronización, lo que dificulta la aceleración por hardware durante la decodificación autoregresiva. Para salvar esta brecha, presentamos Flux Attention, un marco contextualmente consciente que optimiza dinámicamente el cómputo de la atención a nivel de capa. Al integrar un Enrutador de Capa ligero en LLM preentrenados y congelados, el método propuesto enruta adaptativamente cada capa hacia FA o SA basándose en el contexto de entrada. Este enrutamiento a nivel de capa preserva una recuperación de información de alta fidelidad mientras garantiza acceso contiguo a la memoria, traduciendo las reducciones computacionales teóricas en aceleraciones prácticas en tiempo de ejecución. Como un enfoque eficiente en parámetros, nuestro marco requiere solo 12 horas de entrenamiento en 8 GPUs A800. Experimentos exhaustivos en múltiples benchmarks de contexto largo y razonamiento matemático demuestran que Flux Attention logra un equilibrio superior entre rendimiento y velocidad de inferencia en comparación con los modelos base, con mejoras de velocidad de hasta 2.8x y 2.0x en las etapas de prellenado y decodificación, respectivamente.

English

The quadratic computational complexity of standard attention mechanisms presents a severe scalability bottleneck for LLMs in long-context scenarios. While hybrid attention mechanisms combining Full Attention (FA) and Sparse Attention (SA) offer a potential solution, existing methods typically rely on static allocation ratios that fail to accommodate the variable retrieval demands of different tasks. Furthermore, head-level dynamic sparsity often introduces severe computational load imbalance and synchronization long-tails, which hinder hardware acceleration during autoregressive decoding. To bridge this gap, we introduce Flux Attention, a context-aware framework that dynamically optimizes attention computation at the layer level. By integrating a lightweight Layer Router into frozen pretrained LLMs, the proposed method adaptively routes each layer to FA or SA based on the input context. This layer-wise routing preserves high-fidelity information retrieval while ensuring contiguous memory access, translating theoretical computational reductions into practical wall-clock speedups. As a parameter-efficient approach, our framework requires only 12 hours of training on 8timesA800 GPUs. Extensive experiments across multiple long-context and mathematical reasoning benchmarks demonstrate that Flux Attention achieves a superior trade-off between performance and inference speed compared with baseline models, with speed improvements of up to 2.8times and 2.0times in the prefill and decode stages.

Atención de Flujo: Atención Híbrida Consciente del Contexto para la Inferencia Eficiente de Modelos de Lenguaje Grandes

Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

Resumen

Support