ChatPaper.aiChatPaper

Een Systematische Analyse van Hybride Lineaire Aandacht

A Systematic Analysis of Hybrid Linear Attention

July 8, 2025
Auteurs: Dustin Wang, Rui-Jie Zhu, Steven Abreu, Yong Shan, Taylor Kergan, Yuqi Pan, Yuhong Chou, Zheng Li, Ge Zhang, Wenhao Huang, Jason Eshraghian
cs.AI

Samenvatting

Transformers kampen met kwadratische complexiteit en geheugenproblemen bij lange sequenties, wat heeft geleid tot de adoptie van lineaire aandachtmechanismen met vaste grootte van verborgen toestanden. Lineaire modellen hebben echter vaak beperkte recallprestaties, wat resulteert in hybride architecturen die lineaire en volledige aandachtlagen combineren. Ondanks uitgebreid onderzoek naar hybride architecturen is de keuze van het lineaire aandachtcomponent nog niet diepgaand onderzocht. Wij evalueren systematisch verschillende lineaire aandachtmodellen over generaties heen - van vectorrecursies tot geavanceerde gatingmechanismen - zowel op zichzelf staand als in hybride vorm. Om deze uitgebreide analyse mogelijk te maken, hebben we 72 modellen getraind en openbaar gemaakt: 36 met 340M parameters (20B tokens) en 36 met 1.3B parameters (100B tokens), waarbij zes varianten van lineaire aandacht over vijf hybridisatieverhoudingen zijn bestreken. Benchmarking op standaard taalmodelleer- en recalltaken toont aan dat superieure op zichzelf staande lineaire modellen niet noodzakelijk uitblinken in hybride modellen. Hoewel taalmodelleerprestaties stabiel blijven over verschillende verhoudingen van lineaire naar volledige aandacht, verbetert recall aanzienlijk met meer volledige aandachtlagen, vooral onder een verhouding van 3:1. Onze studie benadrukt selectief gating, hiërarchische recursie en gecontroleerd vergeten als cruciaal voor effectieve hybride modellen. Wij bevelen architecturen aan zoals HGRN-2 of GatedDeltaNet met een lineaire-naar-volledige verhouding tussen 3:1 en 6:1 om efficiënt Transformer-niveau recall te bereiken. Onze modellen zijn openbaar gemaakt op https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
English
Transformers face quadratic complexity and memory issues with long sequences, prompting the adoption of linear attention mechanisms using fixed-size hidden states. However, linear models often suffer from limited recall performance, leading to hybrid architectures that combine linear and full attention layers. Despite extensive hybrid architecture research, the choice of linear attention component has not been deeply explored. We systematically evaluate various linear attention models across generations - vector recurrences to advanced gating mechanisms - both standalone and hybridized. To enable this comprehensive analysis, we trained and open-sourced 72 models: 36 at 340M parameters (20B tokens) and 36 at 1.3B parameters (100B tokens), covering six linear attention variants across five hybridization ratios. Benchmarking on standard language modeling and recall tasks reveals that superior standalone linear models do not necessarily excel in hybrids. While language modeling remains stable across linear-to-full attention ratios, recall significantly improves with increased full attention layers, particularly below a 3:1 ratio. Our study highlights selective gating, hierarchical recurrence, and controlled forgetting as critical for effective hybrid models. We recommend architectures such as HGRN-2 or GatedDeltaNet with a linear-to-full ratio between 3:1 and 6:1 to achieve Transformer-level recall efficiently. Our models are open-sourced at https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
PDF241July 10, 2025