Attention Flux : Attention Hybride Contextuelle pour une Inférence Efficace des Grands Modèles de Langage

Résumé

La complexité computationnelle quadratique des mécanismes d'attention standard constitue un goulot d'étranglement sévère pour la scalabilité des LLM dans les scénarios à contexte long. Bien que les mécanismes d'attention hybride combinant l'attention complète (FA) et l'attention creuse (SA) offrent une solution potentielle, les méthodes existantes reposent généralement sur des ratios d'allocation statiques qui ne parviennent pas à s'adapter aux demandes variables de récupération d'informations des différentes tâches. De plus, la dynamique de creusité au niveau des têtes d'attention introduit souvent un déséquilibre sévère de la charge computationnelle et des queues de synchronisation longues, ce qui entrave l'accélération matérielle lors du décodage autorégressif. Pour combler cette lacune, nous présentons Flux Attention, un cadre contextuel qui optimise dynamiquement le calcul de l'attention au niveau des couches. En intégrant un Routeur de Couche léger dans des LLM pré-entraînés figés, la méthode proposée achemine adaptativement chaque couche vers FA ou SA en fonction du contexte d'entrée. Ce routage par couche préserve une récupération d'information haute fidélité tout en garantissant un accès mémoire contigu, transformant ainsi les réductions computationnelles théoriques en accélérations pratiques mesurables. Approche efficace en paramètres, notre cadre ne nécessite que 12 heures d'entraînement sur 8 GPU A800. Des expériences approfondies sur plusieurs benchmarks de raisonnement mathématique et de contexte long démontrent que Flux Attention atteint un compromis supérieur entre performance et vitesse d'inférence par rapport aux modèles de référence, avec des accélérations allant jusqu'à 2,8 fois et 2,0 fois respectivement lors des phases de pré-remplissage et de décodage.

English

The quadratic computational complexity of standard attention mechanisms presents a severe scalability bottleneck for LLMs in long-context scenarios. While hybrid attention mechanisms combining Full Attention (FA) and Sparse Attention (SA) offer a potential solution, existing methods typically rely on static allocation ratios that fail to accommodate the variable retrieval demands of different tasks. Furthermore, head-level dynamic sparsity often introduces severe computational load imbalance and synchronization long-tails, which hinder hardware acceleration during autoregressive decoding. To bridge this gap, we introduce Flux Attention, a context-aware framework that dynamically optimizes attention computation at the layer level. By integrating a lightweight Layer Router into frozen pretrained LLMs, the proposed method adaptively routes each layer to FA or SA based on the input context. This layer-wise routing preserves high-fidelity information retrieval while ensuring contiguous memory access, translating theoretical computational reductions into practical wall-clock speedups. As a parameter-efficient approach, our framework requires only 12 hours of training on 8timesA800 GPUs. Extensive experiments across multiple long-context and mathematical reasoning benchmarks demonstrate that Flux Attention achieves a superior trade-off between performance and inference speed compared with baseline models, with speed improvements of up to 2.8times and 2.0times in the prefill and decode stages.

Attention Flux : Attention Hybride Contextuelle pour une Inférence Efficace des Grands Modèles de Langage

Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

Résumé

Support