ChatPaper.aiChatPaper

Atención Dispersa Rectificada

Rectified Sparse Attention

June 4, 2025
Autores: Yutao Sun, Tianzhu Ye, Li Dong, Yuqing Xia, Jian Chen, Yizhao Gao, Shijie Cao, Jianyong Wang, Furu Wei
cs.AI

Resumen

La generación eficiente de secuencias largas es un desafío crítico para los Modelos de Lenguaje a Gran Escala (LLM). Aunque los métodos recientes de decodificación dispersa mejoran la eficiencia, sufren de desalineación en la caché KV, donde los errores de aproximación se acumulan y degradan la calidad de la generación. En este trabajo, proponemos Atención Dispersa Rectificada (ReSA), un método simple pero efectivo que combina la atención dispersa en bloques con una rectificación densa periódica. Al actualizar la caché KV a intervalos fijos mediante un pase hacia adelante denso, ReSA limita la acumulación de errores y preserva la alineación con la distribución de preentrenamiento. Los experimentos en tareas de razonamiento matemático, modelado de lenguaje y recuperación demuestran que ReSA logra una calidad de generación casi sin pérdidas con una eficiencia significativamente mejorada. Notablemente, ReSA ofrece una aceleración de hasta 2.42 veces en el proceso de decodificación con secuencias de 256K de longitud, convirtiéndolo en una solución práctica para la inferencia escalable en contextos largos. El código está disponible en https://aka.ms/ReSA-LM.
English
Efficient long-sequence generation is a critical challenge for Large Language Models. While recent sparse decoding methods improve efficiency, they suffer from KV cache misalignment, where approximation errors accumulate and degrade generation quality. In this work, we propose Rectified Sparse Attention (ReSA), a simple yet effective method that combines block-sparse attention with periodic dense rectification. By refreshing the KV cache at fixed intervals using a dense forward pass, ReSA bounds error accumulation and preserves alignment with the pretraining distribution. Experiments across math reasoning, language modeling, and retrieval tasks demonstrate that ReSA achieves near-lossless generation quality with significantly improved efficiency. Notably, ReSA delivers up to 2.42times end-to-end speedup under decoding at 256K sequence length, making it a practical solution for scalable long-context inference. Code is available at https://aka.ms/ReSA-LM.
PDF92June 5, 2025