ChatPaper.aiChatPaper

Une Analyse Systématique de l'Attention Linéaire Hybride

A Systematic Analysis of Hybrid Linear Attention

July 8, 2025
papers.authors: Dustin Wang, Rui-Jie Zhu, Steven Abreu, Yong Shan, Taylor Kergan, Yuqi Pan, Yuhong Chou, Zheng Li, Ge Zhang, Wenhao Huang, Jason Eshraghian
cs.AI

papers.abstract

Les Transformers rencontrent des problèmes de complexité quadratique et de mémoire avec les longues séquences, ce qui a conduit à l'adoption de mécanismes d'attention linéaire utilisant des états cachés de taille fixe. Cependant, les modèles linéaires souffrent souvent de performances de rappel limitées, ce qui a donné lieu à des architectures hybrides combinant des couches d'attention linéaire et complète. Malgré des recherches approfondies sur les architectures hybrides, le choix du composant d'attention linéaire n'a pas été exploré en profondeur. Nous évaluons systématiquement divers modèles d'attention linéaire à travers les générations - des récurrences vectorielles aux mécanismes de gating avancés - à la fois de manière autonome et hybridée. Pour permettre cette analyse exhaustive, nous avons entraîné et ouvert l'accès à 72 modèles : 36 avec 340 millions de paramètres (20 milliards de tokens) et 36 avec 1,3 milliard de paramètres (100 milliards de tokens), couvrant six variantes d'attention linéaire sur cinq ratios d'hybridation. L'évaluation sur des tâches standard de modélisation du langage et de rappel révèle que les modèles linéaires autonomes supérieurs n'excellent pas nécessairement dans les hybrides. Alors que la modélisation du langage reste stable à travers les ratios d'attention linéaire à complète, le rappel s'améliore significativement avec l'augmentation des couches d'attention complète, en particulier en dessous d'un ratio de 3:1. Notre étude met en évidence le gating sélectif, la récurrence hiérarchique et l'oubli contrôlé comme étant critiques pour des modèles hybrides efficaces. Nous recommandons des architectures telles que HGRN-2 ou GatedDeltaNet avec un ratio linéaire à complet entre 3:1 et 6:1 pour atteindre un rappel de niveau Transformer de manière efficace. Nos modèles sont accessibles à l'adresse suivante : https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
English
Transformers face quadratic complexity and memory issues with long sequences, prompting the adoption of linear attention mechanisms using fixed-size hidden states. However, linear models often suffer from limited recall performance, leading to hybrid architectures that combine linear and full attention layers. Despite extensive hybrid architecture research, the choice of linear attention component has not been deeply explored. We systematically evaluate various linear attention models across generations - vector recurrences to advanced gating mechanisms - both standalone and hybridized. To enable this comprehensive analysis, we trained and open-sourced 72 models: 36 at 340M parameters (20B tokens) and 36 at 1.3B parameters (100B tokens), covering six linear attention variants across five hybridization ratios. Benchmarking on standard language modeling and recall tasks reveals that superior standalone linear models do not necessarily excel in hybrids. While language modeling remains stable across linear-to-full attention ratios, recall significantly improves with increased full attention layers, particularly below a 3:1 ratio. Our study highlights selective gating, hierarchical recurrence, and controlled forgetting as critical for effective hybrid models. We recommend architectures such as HGRN-2 or GatedDeltaNet with a linear-to-full ratio between 3:1 and 6:1 to achieve Transformer-level recall efficiently. Our models are open-sourced at https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
PDF201July 10, 2025