Un Análisis Sistemático de la Atención Lineal Híbrida
A Systematic Analysis of Hybrid Linear Attention
July 8, 2025
Autores: Dustin Wang, Rui-Jie Zhu, Steven Abreu, Yong Shan, Taylor Kergan, Yuqi Pan, Yuhong Chou, Zheng Li, Ge Zhang, Wenhao Huang, Jason Eshraghian
cs.AI
Resumen
Los Transformers enfrentan problemas de complejidad cuadrática y memoria con secuencias largas, lo que ha impulsado la adopción de mecanismos de atención lineal utilizando estados ocultos de tamaño fijo. Sin embargo, los modelos lineales suelen tener un rendimiento limitado en tareas de recuperación, lo que ha llevado al desarrollo de arquitecturas híbridas que combinan capas de atención lineal y completa. A pesar de la extensa investigación en arquitecturas híbridas, la elección del componente de atención lineal no ha sido explorada en profundidad. Evaluamos sistemáticamente varios modelos de atención lineal a lo largo de generaciones, desde recurrencias vectoriales hasta mecanismos avanzados de compuertas, tanto de forma independiente como en configuraciones híbridas. Para facilitar este análisis exhaustivo, entrenamos y publicamos 72 modelos: 36 con 340M de parámetros (20B tokens) y 36 con 1.3B de parámetros (100B tokens), cubriendo seis variantes de atención lineal en cinco proporciones de hibridación. Las pruebas en tareas estándar de modelado de lenguaje y recuperación revelan que los modelos lineales superiores de forma independiente no necesariamente destacan en configuraciones híbridas. Mientras que el modelado de lenguaje se mantiene estable en diferentes proporciones de atención lineal a completa, la recuperación mejora significativamente con más capas de atención completa, especialmente por debajo de una proporción de 3:1. Nuestro estudio destaca la importancia de la compuerta selectiva, la recurrencia jerárquica y el olvido controlado para modelos híbridos efectivos. Recomendamos arquitecturas como HGRN-2 o GatedDeltaNet con una proporción lineal a completa entre 3:1 y 6:1 para alcanzar un nivel de recuperación comparable a los Transformers de manera eficiente. Nuestros modelos están disponibles en https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
English
Transformers face quadratic complexity and memory issues with long sequences,
prompting the adoption of linear attention mechanisms using fixed-size hidden
states. However, linear models often suffer from limited recall performance,
leading to hybrid architectures that combine linear and full attention layers.
Despite extensive hybrid architecture research, the choice of linear attention
component has not been deeply explored. We systematically evaluate various
linear attention models across generations - vector recurrences to advanced
gating mechanisms - both standalone and hybridized. To enable this
comprehensive analysis, we trained and open-sourced 72 models: 36 at 340M
parameters (20B tokens) and 36 at 1.3B parameters (100B tokens), covering six
linear attention variants across five hybridization ratios. Benchmarking on
standard language modeling and recall tasks reveals that superior standalone
linear models do not necessarily excel in hybrids. While language modeling
remains stable across linear-to-full attention ratios, recall significantly
improves with increased full attention layers, particularly below a 3:1 ratio.
Our study highlights selective gating, hierarchical recurrence, and controlled
forgetting as critical for effective hybrid models. We recommend architectures
such as HGRN-2 or GatedDeltaNet with a linear-to-full ratio between 3:1 and 6:1
to achieve Transformer-level recall efficiently. Our models are open-sourced at
https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.