ChatPaper.aiChatPaper

Höhergradige Lineare Aufmerksamkeit

Higher-order Linear Attention

October 31, 2025
papers.authors: Yifan Zhang, Zhen Qin, Quanquan Gu
cs.AI

papers.abstract

Die quadratischen Kosten der skalierten Dot-Produkt-Attention sind ein zentrales Hindernis für die Skalierung autoregressiver Sprachmodelle auf lange Kontexte. Lineare Attention und State Space Models (SSMs) bieten skalierbare Alternativen, sind jedoch typischerweise auf Approximationen erster Ordnung oder kernelbasierte Ansätze beschränkt, was die Ausdrucksfähigkeit einschränken kann. Wir führen Higher-order Linear Attention (HLA) ein, einen kausalen, Streaming-fähigen Mechanismus, der höhere Interaktionen durch kompakte Suffizienzstatistiken des Präfix realisiert. Im Fall zweiter Ordnung verwaltet HLA einen Zustand konstanter Größe und berechnet Ausgaben pro Token in linearer Zeit, ohne jemals n-mal-n-Matrizen explizit zu materialisieren. Wir liefern geschlossene Streaming-Identitäten, eine streng kausale Maskierungsvariante unter Verwendung zweier zusätzlicher Summaries und ein chunk-paralleles Trainingsschema basierend auf assoziativen Scans, das die Aktivierungen einer seriellen Rekurrenz exakt reproduziert. Wir skizzieren zudem Erweiterungen auf dritte und höhere Ordnungen. Zusammengenommen positionieren diese Ergebnisse HLA als einen prinzipienbasierten, skalierbaren Baustein, der attention-artiges, datenabhängiges Mischen mit der Effizienz moderner rekurrenter Architekturen kombiniert. Projektseite: https://github.com/yifanzhang-pro/HLA.
English
The quadratic cost of scaled dot-product attention is a central obstacle to scaling autoregressive language models to long contexts. Linear-time attention and State Space Models (SSMs) provide scalable alternatives but are typically restricted to first-order or kernel-based approximations, which can limit expressivity. We introduce Higher-order Linear Attention (HLA), a causal, streaming mechanism that realizes higher interactions via compact prefix sufficient statistics. In the second-order case, HLA maintains a constant-size state and computes per-token outputs in linear time without materializing any n times n matrices. We give closed-form streaming identities, a strictly causal masked variant using two additional summaries, and a chunk-parallel training scheme based on associative scans that reproduces the activations of a serial recurrence exactly. We further outline extensions to third and higher orders. Collectively, these results position HLA as a principled, scalable building block that combines attention-like, data-dependent mixing with the efficiency of modern recurrent architectures. Project Page: https://github.com/yifanzhang-pro/HLA.
PDF151February 7, 2026