Attention Linéaire d'Ordre Supérieur

papers.abstract

Le coût quadratique de l'attention par produit scalaire mis à l'échelle est un obstacle central à la mise à l'échelle des modèles de langage autorégressifs pour de longs contextes. Les mécanismes d'attention à temps linéaire et les modèles à espace d'états (SSM) offrent des alternatives évolutives, mais sont généralement limités à des approximations du premier ordre ou basées sur des noyaux, ce qui peut restreindre l'expressivité. Nous présentons l'Attention Linéaire d'Ordre Supérieur (HLA), un mécanisme causal et séquentiel qui réalise des interactions d'ordre supérieur via des statistiques exhaustives de préfixe compactes. Dans le cas du second ordre, HLA maintient un état de taille constante et calcule les sorties par token en temps linéaire sans matérialiser de matrices n fois n. Nous fournissons des identités de traitement séquentiel sous forme fermée, une variante masquée strictement causale utilisant deux résumés supplémentaires, et un schéma d'entraînement parallèle par blocs basé sur des scans associatifs qui reproduit exactement les activations d'une récurrence série. Nous esquissons en outre des extensions aux ordres trois et supérieurs. Collectivement, ces résultats positionnent HLA comme un bloc de construction évolutif et fondé, qui combine un mélange dépendant des données, semblable à l'attention, avec l'efficacité des architectures récurrentes modernes. Page du projet : https://github.com/yifanzhang-pro/HLA.

English

The quadratic cost of scaled dot-product attention is a central obstacle to scaling autoregressive language models to long contexts. Linear-time attention and State Space Models (SSMs) provide scalable alternatives but are typically restricted to first-order or kernel-based approximations, which can limit expressivity. We introduce Higher-order Linear Attention (HLA), a causal, streaming mechanism that realizes higher interactions via compact prefix sufficient statistics. In the second-order case, HLA maintains a constant-size state and computes per-token outputs in linear time without materializing any n times n matrices. We give closed-form streaming identities, a strictly causal masked variant using two additional summaries, and a chunk-parallel training scheme based on associative scans that reproduces the activations of a serial recurrence exactly. We further outline extensions to third and higher orders. Collectively, these results position HLA as a principled, scalable building block that combines attention-like, data-dependent mixing with the efficiency of modern recurrent architectures. Project Page: https://github.com/yifanzhang-pro/HLA.