Flux Attention: Контекстно-зависимое гибридное внимание для эффективного вывода больших языковых моделей

Аннотация

Квадратичная вычислительная сложность стандартных механизмов внимания создает серьезное ограничение масштабируемости для больших языковых моделей (LLM) в сценариях с длинным контекстом. Хотя гибридные механизмы внимания, сочетающие полное внимание (FA) и разреженное внимание (SA), предлагают потенциальное решение, существующие методы обычно полагаются на статические коэффициенты распределения, которые не способны адаптироваться к изменчивым потребностям различных задач в извлечении информации. Более того, динамическая разреженность на уровне голов внимания часто приводит к значительному дисбалансу вычислительной нагрузки и длинным хвостам синхронизации, что затрудняет аппаратное ускорение при авторегрессионном декодировании. Для преодоления этого разрыва мы представляем Flux Attention — контекстно-ориентированную архитектуру, которая динамически оптимизирует вычисления внимания на уровне слоев. Путем интеграции легковесного маршрутизатора слоев в замороженные предобученные LLM предложенный метод адаптивно направляет каждый слой к FA или SA на основе входного контекста. Такая послойная маршрутизация сохраняет высокоточное извлечение информации, одновременно обеспечивая последовательный доступ к памяти, что преобразует теоретическое сокращение вычислений в практическое ускорение в реальном времени. Будучи параметрически эффективным методом, наша архитектура требует всего 12 часов обучения на 8 GPU A800. Многочисленные эксперименты на различных наборах данных для задач с длинным контекстом и математических рассуждений демонстрируют, что Flux Attention достигает превосходного баланса между производительностью и скоростью вывода по сравнению с базовыми моделями, обеспечивая ускорение до 2.8 и 2.0 раз на этапах предзаполнения и декодирования соответственно.

English

The quadratic computational complexity of standard attention mechanisms presents a severe scalability bottleneck for LLMs in long-context scenarios. While hybrid attention mechanisms combining Full Attention (FA) and Sparse Attention (SA) offer a potential solution, existing methods typically rely on static allocation ratios that fail to accommodate the variable retrieval demands of different tasks. Furthermore, head-level dynamic sparsity often introduces severe computational load imbalance and synchronization long-tails, which hinder hardware acceleration during autoregressive decoding. To bridge this gap, we introduce Flux Attention, a context-aware framework that dynamically optimizes attention computation at the layer level. By integrating a lightweight Layer Router into frozen pretrained LLMs, the proposed method adaptively routes each layer to FA or SA based on the input context. This layer-wise routing preserves high-fidelity information retrieval while ensuring contiguous memory access, translating theoretical computational reductions into practical wall-clock speedups. As a parameter-efficient approach, our framework requires only 12 hours of training on 8timesA800 GPUs. Extensive experiments across multiple long-context and mathematical reasoning benchmarks demonstrate that Flux Attention achieves a superior trade-off between performance and inference speed compared with baseline models, with speed improvements of up to 2.8times and 2.0times in the prefill and decode stages.

Flux Attention: Контекстно-зависимое гибридное внимание для эффективного вывода больших языковых моделей

Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

Аннотация

Support