Eine systematische Analyse hybrider linearer Aufmerksamkeit
A Systematic Analysis of Hybrid Linear Attention
July 8, 2025
papers.authors: Dustin Wang, Rui-Jie Zhu, Steven Abreu, Yong Shan, Taylor Kergan, Yuqi Pan, Yuhong Chou, Zheng Li, Ge Zhang, Wenhao Huang, Jason Eshraghian
cs.AI
papers.abstract
Transformer stehen bei langen Sequenzen vor quadratischer Komplexität und Speicherproblemen, was die Einführung linearer Aufmerksamkeitsmechanismen mit festgelegten versteckten Zuständen motiviert. Allerdings leiden lineare Modelle oft unter begrenzter Erinnerungsleistung, was zu hybriden Architekturen führt, die lineare und vollständige Aufmerksamkeitsebenen kombinieren. Trotz umfangreicher Forschung zu hybriden Architekturen wurde die Wahl der linearen Aufmerksamkeitskomponente nicht eingehend untersucht. Wir evaluieren systematisch verschiedene lineare Aufmerksamkeitsmodelle über Generationen hinweg – von Vektor-Rekurrenzen bis hin zu fortgeschrittenen Gating-Mechanismen – sowohl eigenständig als auch hybridisiert. Um diese umfassende Analyse zu ermöglichen, haben wir 72 Modelle trainiert und als Open Source bereitgestellt: 36 mit 340M Parametern (20B Tokens) und 36 mit 1,3B Parametern (100B Tokens), die sechs Varianten linearer Aufmerksamkeit über fünf Hybridisierungsverhältnisse abdecken. Benchmarks auf Standardaufgaben zur Sprachmodellierung und Erinnerung zeigen, dass überlegene eigenständige lineare Modelle nicht zwangsläufig in Hybriden exzellieren. Während die Sprachmodellierung über verschiedene Verhältnisse von linearer zu vollständiger Aufmerksamkeit stabil bleibt, verbessert sich die Erinnerungsleistung signifikant mit zunehmenden vollständigen Aufmerksamkeitsebenen, insbesondere unter einem Verhältnis von 3:1. Unsere Studie hebt selektives Gating, hierarchische Rekurrenz und kontrolliertes Vergessen als entscheidend für effektive hybride Modelle hervor. Wir empfehlen Architekturen wie HGRN-2 oder GatedDeltaNet mit einem linearen zu vollständigen Verhältnis zwischen 3:1 und 6:1, um eine Transformer-ähnliche Erinnerungsleistung effizient zu erreichen. Unsere Modelle sind unter https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e als Open Source verfügbar.
English
Transformers face quadratic complexity and memory issues with long sequences,
prompting the adoption of linear attention mechanisms using fixed-size hidden
states. However, linear models often suffer from limited recall performance,
leading to hybrid architectures that combine linear and full attention layers.
Despite extensive hybrid architecture research, the choice of linear attention
component has not been deeply explored. We systematically evaluate various
linear attention models across generations - vector recurrences to advanced
gating mechanisms - both standalone and hybridized. To enable this
comprehensive analysis, we trained and open-sourced 72 models: 36 at 340M
parameters (20B tokens) and 36 at 1.3B parameters (100B tokens), covering six
linear attention variants across five hybridization ratios. Benchmarking on
standard language modeling and recall tasks reveals that superior standalone
linear models do not necessarily excel in hybrids. While language modeling
remains stable across linear-to-full attention ratios, recall significantly
improves with increased full attention layers, particularly below a 3:1 ratio.
Our study highlights selective gating, hierarchical recurrence, and controlled
forgetting as critical for effective hybrid models. We recommend architectures
such as HGRN-2 or GatedDeltaNet with a linear-to-full ratio between 3:1 and 6:1
to achieve Transformer-level recall efficiently. Our models are open-sourced at
https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.