Attenzione Lineare di Ordine Superiore
Higher-order Linear Attention
October 31, 2025
Autori: Yifan Zhang, Zhen Qin, Quanquan Gu
cs.AI
Abstract
Il costo quadratico dell'attenzione dot-product scalata rappresenta un ostacolo fondamentale per il ridimensionamento dei modelli linguistici autoregressivi verso contesti lunghi. L'attenzione a tempo lineare e i Modelli Spazio di Stato (SSM) offrono alternative scalabili, ma sono tipicamente limitati ad approssimazioni del primo ordine o basate su kernel, il che può limitarne l'espressività. Introduciamo Higher-order Linear Attention (HLA), un meccanismo causale e in streaming che realizza interazioni di ordine superiore tramite statistiche sufficienti compatte del prefisso. Nel caso del secondo ordine, HLA mantiene uno stato di dimensione costante e calcola output per token in tempo lineare senza materializzare alcuna matrice n × n. Forniamo identità di streaming in forma chiusa, una variante mascherata strettamente causale che utilizza due sommari aggiuntivi e uno schema di addestramento parallelo a blocchi basato su scansioni associative che riproduce esattamente le attivazioni di una ricorrenza seriale. Delineiamo inoltre estensioni al terzo ordine e superiori. Collettivamente, questi risultati posizionano HLA come un blocco costitutivo scalabile e fondato su principi, che combina la miscelazione dipendente dai dati, simile all'attenzione, con l'efficienza delle moderne architetture ricorrenti. Pagina del progetto: https://github.com/yifanzhang-pro/HLA.
English
The quadratic cost of scaled dot-product attention is a central obstacle to
scaling autoregressive language models to long contexts. Linear-time attention
and State Space Models (SSMs) provide scalable alternatives but are typically
restricted to first-order or kernel-based approximations, which can limit
expressivity. We introduce Higher-order Linear Attention (HLA), a causal,
streaming mechanism that realizes higher interactions via compact prefix
sufficient statistics. In the second-order case, HLA maintains a constant-size
state and computes per-token outputs in linear time without materializing any
n times n matrices. We give closed-form streaming identities, a strictly
causal masked variant using two additional summaries, and a chunk-parallel
training scheme based on associative scans that reproduces the activations of a
serial recurrence exactly. We further outline extensions to third and higher
orders. Collectively, these results position HLA as a principled, scalable
building block that combines attention-like, data-dependent mixing with the
efficiency of modern recurrent architectures. Project Page:
https://github.com/yifanzhang-pro/HLA.