ChatPaper.aiChatPaper

Atención Elástica: Proporciones de Dispersión Adaptativas en Tiempo de Prueba para Transformadores Eficientes

Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers

January 24, 2026
Autores: Zecheng Tang, Quantong Qiu, Yi Yang, Zhiyi Hong, Haiya Xiang, Kebin Liu, Qingqing Dang, Juntao Li, Min Zhang
cs.AI

Resumen

La complejidad cuadrática de los mecanismos de atención estándar representa un cuello de botella significativo para la escalabilidad de los modelos de lenguaje grandes (LLM) en escenarios de contexto largo. Si bien las estrategias de atención híbrida que combinan atención dispersa y completa dentro de un mismo modelo ofrecen una solución viable, estas suelen emplear ratios de cómputo estáticos (es decir, proporciones fijas de atención dispersa versus completa) y no logran adaptarse a las diversas sensibilidades de dispersión de las tareas posteriores durante la inferencia. Para abordar este problema, proponemos Elastic Attention, que permite al modelo ajustar dinámicamente su dispersión general en función de la entrada. Esto se logra mediante la integración de un Enrutador de Atención ligero en el modelo preentrenado existente, el cual asigna dinámicamente cada cabeza de atención a diferentes modos de cómputo. Con solo 12 horas de entrenamiento en 8 GPUs A800, nuestro método permite a los modelos alcanzar tanto un alto rendimiento como una inferencia eficiente. Experimentos en tres benchmarks de contexto largo con modelos de lenguaje ampliamente utilizados demuestran la superioridad de nuestro método.
English
The quadratic complexity of standard attention mechanisms poses a significant scalability bottleneck for large language models (LLMs) in long-context scenarios. While hybrid attention strategies that combine sparse and full attention within a single model offer a viable solution, they typically employ static computation ratios (i.e., fixed proportions of sparse versus full attention) and fail to adapt to the varying sparsity sensitivities of downstream tasks during inference. To address this issue, we propose Elastic Attention, which allows the model to dynamically adjust its overall sparsity based on the input. This is achieved by integrating a lightweight Attention Router into the existing pretrained model, which dynamically assigns each attention head to different computation modes. Within only 12 hours of training on 8xA800 GPUs, our method enables models to achieve both strong performance and efficient inference. Experiments across three long-context benchmarks on widely-used LLMs demonstrate the superiority of our method.
PDF261January 28, 2026