Flux Attention: Контекстно-зависимое гибридное внимание для эффективного вывода больших языковых моделей
Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference
April 8, 2026
Авторы: Quantong Qiu, Zhiyi Hong, Yi Yang, Haitian Wang, Kebin Liu, Qingqing Dang, Juntao Li, Min Zhang
cs.AI
Аннотация
Квадратичная вычислительная сложность стандартных механизмов внимания создает серьезное ограничение масштабируемости для больших языковых моделей (LLM) в сценариях с длинным контекстом. Хотя гибридные механизмы внимания, сочетающие полное внимание (FA) и разреженное внимание (SA), предлагают потенциальное решение, существующие методы обычно полагаются на статические коэффициенты распределения, которые не способны адаптироваться к изменчивым потребностям различных задач в извлечении информации. Более того, динамическая разреженность на уровне голов внимания часто приводит к значительному дисбалансу вычислительной нагрузки и длинным хвостам синхронизации, что затрудняет аппаратное ускорение при авторегрессионном декодировании. Для преодоления этого разрыва мы представляем Flux Attention — контекстно-ориентированную архитектуру, которая динамически оптимизирует вычисления внимания на уровне слоев. Путем интеграции легковесного маршрутизатора слоев в замороженные предобученные LLM предложенный метод адаптивно направляет каждый слой к FA или SA на основе входного контекста. Такая послойная маршрутизация сохраняет высокоточное извлечение информации, одновременно обеспечивая последовательный доступ к памяти, что преобразует теоретическое сокращение вычислений в практическое ускорение в реальном времени. Будучи параметрически эффективным методом, наша архитектура требует всего 12 часов обучения на 8 GPU A800. Многочисленные эксперименты на различных наборах данных для задач с длинным контекстом и математических рассуждений демонстрируют, что Flux Attention достигает превосходного баланса между производительностью и скоростью вывода по сравнению с базовыми моделями, обеспечивая ускорение до 2.8 и 2.0 раз на этапах предзаполнения и декодирования соответственно.
English
The quadratic computational complexity of standard attention mechanisms presents a severe scalability bottleneck for LLMs in long-context scenarios. While hybrid attention mechanisms combining Full Attention (FA) and Sparse Attention (SA) offer a potential solution, existing methods typically rely on static allocation ratios that fail to accommodate the variable retrieval demands of different tasks. Furthermore, head-level dynamic sparsity often introduces severe computational load imbalance and synchronization long-tails, which hinder hardware acceleration during autoregressive decoding. To bridge this gap, we introduce Flux Attention, a context-aware framework that dynamically optimizes attention computation at the layer level. By integrating a lightweight Layer Router into frozen pretrained LLMs, the proposed method adaptively routes each layer to FA or SA based on the input context. This layer-wise routing preserves high-fidelity information retrieval while ensuring contiguous memory access, translating theoretical computational reductions into practical wall-clock speedups. As a parameter-efficient approach, our framework requires only 12 hours of training on 8timesA800 GPUs. Extensive experiments across multiple long-context and mathematical reasoning benchmarks demonstrate that Flux Attention achieves a superior trade-off between performance and inference speed compared with baseline models, with speed improvements of up to 2.8times and 2.0times in the prefill and decode stages.