Höhergradige Lineare Aufmerksamkeit
Higher-order Linear Attention
October 31, 2025
papers.authors: Yifan Zhang, Zhen Qin, Quanquan Gu
cs.AI
papers.abstract
Die quadratischen Kosten der skalierten Dot-Produkt-Attention sind ein zentrales Hindernis für die Skalierung autoregressiver Sprachmodelle auf lange Kontexte. Lineare Attention und State Space Models (SSMs) bieten skalierbare Alternativen, sind jedoch typischerweise auf Approximationen erster Ordnung oder kernelbasierte Ansätze beschränkt, was die Ausdrucksfähigkeit einschränken kann. Wir führen Higher-order Linear Attention (HLA) ein, einen kausalen, Streaming-fähigen Mechanismus, der höhere Interaktionen durch kompakte Suffizienzstatistiken des Präfix realisiert. Im Fall zweiter Ordnung verwaltet HLA einen Zustand konstanter Größe und berechnet Ausgaben pro Token in linearer Zeit, ohne jemals n-mal-n-Matrizen explizit zu materialisieren. Wir liefern geschlossene Streaming-Identitäten, eine streng kausale Maskierungsvariante unter Verwendung zweier zusätzlicher Summaries und ein chunk-paralleles Trainingsschema basierend auf assoziativen Scans, das die Aktivierungen einer seriellen Rekurrenz exakt reproduziert. Wir skizzieren zudem Erweiterungen auf dritte und höhere Ordnungen. Zusammengenommen positionieren diese Ergebnisse HLA als einen prinzipienbasierten, skalierbaren Baustein, der attention-artiges, datenabhängiges Mischen mit der Effizienz moderner rekurrenter Architekturen kombiniert. Projektseite: https://github.com/yifanzhang-pro/HLA.
English
The quadratic cost of scaled dot-product attention is a central obstacle to
scaling autoregressive language models to long contexts. Linear-time attention
and State Space Models (SSMs) provide scalable alternatives but are typically
restricted to first-order or kernel-based approximations, which can limit
expressivity. We introduce Higher-order Linear Attention (HLA), a causal,
streaming mechanism that realizes higher interactions via compact prefix
sufficient statistics. In the second-order case, HLA maintains a constant-size
state and computes per-token outputs in linear time without materializing any
n times n matrices. We give closed-form streaming identities, a strictly
causal masked variant using two additional summaries, and a chunk-parallel
training scheme based on associative scans that reproduces the activations of a
serial recurrence exactly. We further outline extensions to third and higher
orders. Collectively, these results position HLA as a principled, scalable
building block that combines attention-like, data-dependent mixing with the
efficiency of modern recurrent architectures. Project Page:
https://github.com/yifanzhang-pro/HLA.