ChatPaper.aiChatPaper

Uma Análise Sistemática da Atenção Linear Híbrida

A Systematic Analysis of Hybrid Linear Attention

July 8, 2025
Autores: Dustin Wang, Rui-Jie Zhu, Steven Abreu, Yong Shan, Taylor Kergan, Yuqi Pan, Yuhong Chou, Zheng Li, Ge Zhang, Wenhao Huang, Jason Eshraghian
cs.AI

Resumo

Os Transformers enfrentam complexidade quadrática e problemas de memória com sequências longas, levando à adoção de mecanismos de atenção linear que utilizam estados ocultos de tamanho fixo. No entanto, os modelos lineares frequentemente apresentam desempenho limitado em tarefas de recuperação, o que resultou em arquiteturas híbridas que combinam camadas de atenção linear e completa. Apesar da extensa pesquisa em arquiteturas híbridas, a escolha do componente de atenção linear não foi profundamente explorada. Avaliamos sistematicamente diversos modelos de atenção linear ao longo de gerações — desde recorrências vetoriais até mecanismos avançados de gating — tanto de forma isolada quanto hibridizada. Para possibilitar essa análise abrangente, treinamos e disponibilizamos publicamente 72 modelos: 36 com 340M de parâmetros (20B tokens) e 36 com 1,3B de parâmetros (100B tokens), abrangendo seis variantes de atenção linear em cinco proporções de hibridização. A avaliação em tarefas padrão de modelagem de linguagem e recuperação revela que modelos lineares superiores de forma isolada não necessariamente se destacam em híbridos. Enquanto a modelagem de linguagem permanece estável em diferentes proporções de atenção linear para completa, a recuperação melhora significativamente com o aumento de camadas de atenção completa, especialmente abaixo de uma proporção de 3:1. Nosso estudo destaca o gating seletivo, a recorrência hierárquica e o esquecimento controlado como elementos críticos para modelos híbridos eficazes. Recomendamos arquiteturas como HGRN-2 ou GatedDeltaNet com uma proporção linear para completa entre 3:1 e 6:1 para alcançar recuperação no nível de Transformers de forma eficiente. Nossos modelos estão disponíveis publicamente em https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
English
Transformers face quadratic complexity and memory issues with long sequences, prompting the adoption of linear attention mechanisms using fixed-size hidden states. However, linear models often suffer from limited recall performance, leading to hybrid architectures that combine linear and full attention layers. Despite extensive hybrid architecture research, the choice of linear attention component has not been deeply explored. We systematically evaluate various linear attention models across generations - vector recurrences to advanced gating mechanisms - both standalone and hybridized. To enable this comprehensive analysis, we trained and open-sourced 72 models: 36 at 340M parameters (20B tokens) and 36 at 1.3B parameters (100B tokens), covering six linear attention variants across five hybridization ratios. Benchmarking on standard language modeling and recall tasks reveals that superior standalone linear models do not necessarily excel in hybrids. While language modeling remains stable across linear-to-full attention ratios, recall significantly improves with increased full attention layers, particularly below a 3:1 ratio. Our study highlights selective gating, hierarchical recurrence, and controlled forgetting as critical for effective hybrid models. We recommend architectures such as HGRN-2 or GatedDeltaNet with a linear-to-full ratio between 3:1 and 6:1 to achieve Transformer-level recall efficiently. Our models are open-sourced at https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
PDF221July 10, 2025