SeerAttention-R: Adattamento dell'attenzione sparsa per il ragionamento a lungo termine

Abstract

Introduciamo SeerAttention-R, un framework di attenzione sparsa specificamente progettato per il lungo decoding di modelli di ragionamento. Estendendo SeerAttention, SeerAttention-R mantiene il design di apprendimento della sparsità dell'attenzione attraverso un meccanismo di gating auto-distillato, rimuovendo però il pooling delle query per adattarsi al decoding auto-regressivo. Con un gating leggero e plug-in, SeerAttention-R è flessibile e può essere facilmente integrato in modelli pre-addestrati esistenti senza modificare i parametri originali. Dimostriamo che SeerAttention-R, addestrato su soli 0,4 miliardi di token, mantiene un'accuratezza di ragionamento quasi senza perdite con un budget di 4K token nel benchmark AIME, utilizzando grandi dimensioni di blocco di attenzione sparsa (64/128). Utilizzando TileLang, abbiamo sviluppato un kernel di decoding sparsa altamente ottimizzato che raggiunge accelerazioni quasi teoriche fino a 9x rispetto a FlashAttention-3 su GPU H100 con una sparsità del 90%. Il codice è disponibile all'indirizzo: https://github.com/microsoft/SeerAttention.

English

We introduce SeerAttention-R, a sparse attention framework specifically tailored for the long decoding of reasoning models. Extended from SeerAttention, SeerAttention-R retains the design of learning attention sparsity through a self-distilled gating mechanism, while removing query pooling to accommodate auto-regressive decoding. With a lightweight plug-in gating, SeerAttention-R is flexible and can be easily integrated into existing pretrained model without modifying the original parameters. We demonstrate that SeerAttention-R, trained on just 0.4B tokens, maintains near-lossless reasoning accuracy with 4K token budget in AIME benchmark under large sparse attention block sizes (64/128). Using TileLang, we develop a highly optimized sparse decoding kernel that achieves near-theoretical speedups of up to 9x over FlashAttention-3 on H100 GPU at 90% sparsity. Code is available at: https://github.com/microsoft/SeerAttention.

SeerAttention-R: Adattamento dell'attenzione sparsa per il ragionamento a lungo termine

SeerAttention-R: Sparse Attention Adaptation for Long Reasoning

Abstract

Support