ChatPaper.aiChatPaper

Élasticité de l'Attention : Ratios de Parcimonie Adaptatifs au Moment du Test pour des Transformers Efficaces

Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers

January 24, 2026
papers.authors: Zecheng Tang, Quantong Qiu, Yi Yang, Zhiyi Hong, Haiya Xiang, Kebin Liu, Qingqing Dang, Juntao Li, Min Zhang
cs.AI

papers.abstract

La complexité quadratique des mécanismes d'attention standard constitue un goulot d'étranglement significatif pour l'extensibilité des grands modèles de langage (LLM) dans les scénarios à contexte long. Bien que les stratégies d'attention hybrides, combinant attention éparse et attention complète au sein d'un même modèle, offrent une solution viable, elles emploient généralement des ratios de calcul statiques (c'est-à-dire des proportions fixes d'attention éparse versus complète) et ne parviennent pas à s'adapter aux sensibilités variables à la parcimonie des tâches en aval lors de l'inférence. Pour résoudre ce problème, nous proposons Elastic Attention, qui permet au modèle d'ajuster dynamiquement sa parcimonie globale en fonction de l'entrée. Ceci est réalisé en intégrant un Routeur d'Attention léger dans le modèle préentraîné existant, qui assigne dynamiquement chaque tête d'attention à différents modes de calcul. Avec seulement 12 heures d'entraînement sur 8 GPU A800, notre méthode permet aux modèles d'atteindre à la fois de bonnes performances et une inférence efficace. Les expériences menées sur trois benchmarks de contexte long avec des LLM largement utilisés démontrent la supériorité de notre méthode.
English
The quadratic complexity of standard attention mechanisms poses a significant scalability bottleneck for large language models (LLMs) in long-context scenarios. While hybrid attention strategies that combine sparse and full attention within a single model offer a viable solution, they typically employ static computation ratios (i.e., fixed proportions of sparse versus full attention) and fail to adapt to the varying sparsity sensitivities of downstream tasks during inference. To address this issue, we propose Elastic Attention, which allows the model to dynamically adjust its overall sparsity based on the input. This is achieved by integrating a lightweight Attention Router into the existing pretrained model, which dynamically assigns each attention head to different computation modes. Within only 12 hours of training on 8xA800 GPUs, our method enables models to achieve both strong performance and efficient inference. Experiments across three long-context benchmarks on widely-used LLMs demonstrate the superiority of our method.
PDF261January 28, 2026