Gecorrigeerde Sparse Attention
Rectified Sparse Attention
June 4, 2025
Auteurs: Yutao Sun, Tianzhu Ye, Li Dong, Yuqing Xia, Jian Chen, Yizhao Gao, Shijie Cao, Jianyong Wang, Furu Wei
cs.AI
Samenvatting
Efficiënte generatie van lange sequenties is een cruciale uitdaging voor grote taalmodellen. Hoewel recente sparse decoding-methoden de efficiëntie verbeteren, lijden ze onder KV-cache-misalignering, waarbij benaderingsfouten zich opstapelen en de generatiekwaliteit verslechteren. In dit werk stellen we Rectified Sparse Attention (ReSA) voor, een eenvoudige maar effectieve methode die block-sparse attention combineert met periodieke dense rectificatie. Door de KV-cache op vaste intervallen te vernieuwen met een dense forward pass, beperkt ReSA de accumulatie van fouten en behoudt het de alignering met de pretrainingsdistributie. Experimenten op het gebied van wiskundig redeneren, taalmodellering en retrieval-taken tonen aan dat ReSA bijna verliesvrije generatiekwaliteit bereikt met aanzienlijk verbeterde efficiëntie. Opmerkelijk is dat ReSA een end-to-end versnelling tot 2,42 keer biedt bij decodering met een sequentielengte van 256K, wat het een praktische oplossing maakt voor schaalbare inferentie in lange contexten. Code is beschikbaar op https://aka.ms/ReSA-LM.
English
Efficient long-sequence generation is a critical challenge for Large Language
Models. While recent sparse decoding methods improve efficiency, they suffer
from KV cache misalignment, where approximation errors accumulate and degrade
generation quality. In this work, we propose Rectified Sparse Attention (ReSA),
a simple yet effective method that combines block-sparse attention with
periodic dense rectification. By refreshing the KV cache at fixed intervals
using a dense forward pass, ReSA bounds error accumulation and preserves
alignment with the pretraining distribution. Experiments across math reasoning,
language modeling, and retrieval tasks demonstrate that ReSA achieves
near-lossless generation quality with significantly improved efficiency.
Notably, ReSA delivers up to 2.42times end-to-end speedup under decoding at
256K sequence length, making it a practical solution for scalable long-context
inference. Code is available at https://aka.ms/ReSA-LM.