Attention Linéaire d'Ordre Supérieur
Higher-order Linear Attention
October 31, 2025
papers.authors: Yifan Zhang, Zhen Qin, Quanquan Gu
cs.AI
papers.abstract
Le coût quadratique de l'attention par produit scalaire mis à l'échelle est un obstacle central à la mise à l'échelle des modèles de langage autorégressifs pour de longs contextes. Les mécanismes d'attention à temps linéaire et les modèles à espace d'états (SSM) offrent des alternatives évolutives, mais sont généralement limités à des approximations du premier ordre ou basées sur des noyaux, ce qui peut restreindre l'expressivité. Nous présentons l'Attention Linéaire d'Ordre Supérieur (HLA), un mécanisme causal et séquentiel qui réalise des interactions d'ordre supérieur via des statistiques exhaustives de préfixe compactes. Dans le cas du second ordre, HLA maintient un état de taille constante et calcule les sorties par token en temps linéaire sans matérialiser de matrices n fois n. Nous fournissons des identités de traitement séquentiel sous forme fermée, une variante masquée strictement causale utilisant deux résumés supplémentaires, et un schéma d'entraînement parallèle par blocs basé sur des scans associatifs qui reproduit exactement les activations d'une récurrence série. Nous esquissons en outre des extensions aux ordres trois et supérieurs. Collectivement, ces résultats positionnent HLA comme un bloc de construction évolutif et fondé, qui combine un mélange dépendant des données, semblable à l'attention, avec l'efficacité des architectures récurrentes modernes. Page du projet : https://github.com/yifanzhang-pro/HLA.
English
The quadratic cost of scaled dot-product attention is a central obstacle to
scaling autoregressive language models to long contexts. Linear-time attention
and State Space Models (SSMs) provide scalable alternatives but are typically
restricted to first-order or kernel-based approximations, which can limit
expressivity. We introduce Higher-order Linear Attention (HLA), a causal,
streaming mechanism that realizes higher interactions via compact prefix
sufficient statistics. In the second-order case, HLA maintains a constant-size
state and computes per-token outputs in linear time without materializing any
n times n matrices. We give closed-form streaming identities, a strictly
causal masked variant using two additional summaries, and a chunk-parallel
training scheme based on associative scans that reproduces the activations of a
serial recurrence exactly. We further outline extensions to third and higher
orders. Collectively, these results position HLA as a principled, scalable
building block that combines attention-like, data-dependent mixing with the
efficiency of modern recurrent architectures. Project Page:
https://github.com/yifanzhang-pro/HLA.