Un'Analisi Sistematica dell'Attenzione Lineare Ibrida
A Systematic Analysis of Hybrid Linear Attention
July 8, 2025
Autori: Dustin Wang, Rui-Jie Zhu, Steven Abreu, Yong Shan, Taylor Kergan, Yuqi Pan, Yuhong Chou, Zheng Li, Ge Zhang, Wenhao Huang, Jason Eshraghian
cs.AI
Abstract
I Transformer affrontano complessità quadratica e problemi di memoria con sequenze lunghe, portando all'adozione di meccanismi di attenzione lineare che utilizzano stati nascosti di dimensione fissa. Tuttavia, i modelli lineari spesso soffrono di prestazioni di richiamo limitate, dando origine ad architetture ibride che combinano strati di attenzione lineare e completa. Nonostante l'ampia ricerca sulle architetture ibride, la scelta del componente di attenzione lineare non è stata approfondita. Valutiamo sistematicamente vari modelli di attenzione lineare attraverso diverse generazioni - dalle ricorrenze vettoriali ai meccanismi di gating avanzati - sia in modalità autonoma che ibrida. Per consentire questa analisi completa, abbiamo addestrato e reso disponibili 72 modelli: 36 con 340M di parametri (20B token) e 36 con 1.3B di parametri (100B token), coprendo sei varianti di attenzione lineare attraverso cinque rapporti di ibridazione. Il benchmarking su compiti standard di modellazione del linguaggio e di richiamo rivela che i modelli lineari autonomi superiori non necessariamente eccellono nelle configurazioni ibride. Mentre la modellazione del linguaggio rimane stabile attraverso i rapporti di attenzione lineare-completa, il richiamo migliora significativamente con l'aumento degli strati di attenzione completa, in particolare al di sotto di un rapporto 3:1. Il nostro studio evidenzia il gating selettivo, la ricorrenza gerarchica e l'oblio controllato come elementi critici per modelli ibridi efficaci. Raccomandiamo architetture come HGRN-2 o GatedDeltaNet con un rapporto lineare-completo tra 3:1 e 6:1 per ottenere un richiamo a livello Transformer in modo efficiente. I nostri modelli sono disponibili su https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
English
Transformers face quadratic complexity and memory issues with long sequences,
prompting the adoption of linear attention mechanisms using fixed-size hidden
states. However, linear models often suffer from limited recall performance,
leading to hybrid architectures that combine linear and full attention layers.
Despite extensive hybrid architecture research, the choice of linear attention
component has not been deeply explored. We systematically evaluate various
linear attention models across generations - vector recurrences to advanced
gating mechanisms - both standalone and hybridized. To enable this
comprehensive analysis, we trained and open-sourced 72 models: 36 at 340M
parameters (20B tokens) and 36 at 1.3B parameters (100B tokens), covering six
linear attention variants across five hybridization ratios. Benchmarking on
standard language modeling and recall tasks reveals that superior standalone
linear models do not necessarily excel in hybrids. While language modeling
remains stable across linear-to-full attention ratios, recall significantly
improves with increased full attention layers, particularly below a 3:1 ratio.
Our study highlights selective gating, hierarchical recurrence, and controlled
forgetting as critical for effective hybrid models. We recommend architectures
such as HGRN-2 or GatedDeltaNet with a linear-to-full ratio between 3:1 and 6:1
to achieve Transformer-level recall efficiently. Our models are open-sourced at
https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.