Attenzione Lineare di Ordine Superiore

Abstract

Il costo quadratico dell'attenzione dot-product scalata rappresenta un ostacolo fondamentale per il ridimensionamento dei modelli linguistici autoregressivi verso contesti lunghi. L'attenzione a tempo lineare e i Modelli Spazio di Stato (SSM) offrono alternative scalabili, ma sono tipicamente limitati ad approssimazioni del primo ordine o basate su kernel, il che può limitarne l'espressività. Introduciamo Higher-order Linear Attention (HLA), un meccanismo causale e in streaming che realizza interazioni di ordine superiore tramite statistiche sufficienti compatte del prefisso. Nel caso del secondo ordine, HLA mantiene uno stato di dimensione costante e calcola output per token in tempo lineare senza materializzare alcuna matrice n × n. Forniamo identità di streaming in forma chiusa, una variante mascherata strettamente causale che utilizza due sommari aggiuntivi e uno schema di addestramento parallelo a blocchi basato su scansioni associative che riproduce esattamente le attivazioni di una ricorrenza seriale. Delineiamo inoltre estensioni al terzo ordine e superiori. Collettivamente, questi risultati posizionano HLA come un blocco costitutivo scalabile e fondato su principi, che combina la miscelazione dipendente dai dati, simile all'attenzione, con l'efficienza delle moderne architetture ricorrenti. Pagina del progetto: https://github.com/yifanzhang-pro/HLA.

English

The quadratic cost of scaled dot-product attention is a central obstacle to scaling autoregressive language models to long contexts. Linear-time attention and State Space Models (SSMs) provide scalable alternatives but are typically restricted to first-order or kernel-based approximations, which can limit expressivity. We introduce Higher-order Linear Attention (HLA), a causal, streaming mechanism that realizes higher interactions via compact prefix sufficient statistics. In the second-order case, HLA maintains a constant-size state and computes per-token outputs in linear time without materializing any n times n matrices. We give closed-form streaming identities, a strictly causal masked variant using two additional summaries, and a chunk-parallel training scheme based on associative scans that reproduces the activations of a serial recurrence exactly. We further outline extensions to third and higher orders. Collectively, these results position HLA as a principled, scalable building block that combines attention-like, data-dependent mixing with the efficiency of modern recurrent architectures. Project Page: https://github.com/yifanzhang-pro/HLA.