Систематический анализ гибридного линейного внимания
A Systematic Analysis of Hybrid Linear Attention
July 8, 2025
Авторы: Dustin Wang, Rui-Jie Zhu, Steven Abreu, Yong Shan, Taylor Kergan, Yuqi Pan, Yuhong Chou, Zheng Li, Ge Zhang, Wenhao Huang, Jason Eshraghian
cs.AI
Аннотация
Трансформеры сталкиваются с квадратичной сложностью и проблемами памяти при работе с длинными последовательностями, что стимулирует использование механизмов линейного внимания с фиксированным размером скрытых состояний. Однако линейные модели часто демонстрируют ограниченную производительность в задачах запоминания, что приводит к созданию гибридных архитектур, сочетающих линейные и полные слои внимания. Несмотря на обширные исследования гибридных архитектур, выбор компонента линейного внимания не был глубоко изучен. Мы систематически оцениваем различные модели линейного внимания разных поколений — от векторных рекуррентных механизмов до продвинутых механизмов гейтирования — как в автономном режиме, так и в гибридных конфигурациях. Для проведения этого всестороннего анализа мы обучили и опубликовали 72 модели: 36 с 340 миллионами параметров (20 миллиардов токенов) и 36 с 1,3 миллиардами параметров (100 миллиардов токенов), охватывающих шесть вариантов линейного внимания и пять соотношений гибридизации. Тестирование на стандартных задачах языкового моделирования и запоминания показывает, что лучшие автономные линейные модели не обязательно превосходят в гибридных конфигурациях. Хотя языковое моделирование остается стабильным при различных соотношениях линейного и полного внимания, производительность в задачах запоминания значительно улучшается с увеличением количества полных слоев внимания, особенно при соотношении ниже 3:1. Наше исследование подчеркивает важность избирательного гейтирования, иерархической рекуррентности и контролируемого забывания для эффективных гибридных моделей. Мы рекомендуем архитектуры, такие как HGRN-2 или GatedDeltaNet, с соотношением линейного к полному вниманию от 3:1 до 6:1 для достижения уровня запоминания, сопоставимого с трансформерами, при эффективном использовании ресурсов. Наши модели опубликованы по адресу https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
English
Transformers face quadratic complexity and memory issues with long sequences,
prompting the adoption of linear attention mechanisms using fixed-size hidden
states. However, linear models often suffer from limited recall performance,
leading to hybrid architectures that combine linear and full attention layers.
Despite extensive hybrid architecture research, the choice of linear attention
component has not been deeply explored. We systematically evaluate various
linear attention models across generations - vector recurrences to advanced
gating mechanisms - both standalone and hybridized. To enable this
comprehensive analysis, we trained and open-sourced 72 models: 36 at 340M
parameters (20B tokens) and 36 at 1.3B parameters (100B tokens), covering six
linear attention variants across five hybridization ratios. Benchmarking on
standard language modeling and recall tasks reveals that superior standalone
linear models do not necessarily excel in hybrids. While language modeling
remains stable across linear-to-full attention ratios, recall significantly
improves with increased full attention layers, particularly below a 3:1 ratio.
Our study highlights selective gating, hierarchical recurrence, and controlled
forgetting as critical for effective hybrid models. We recommend architectures
such as HGRN-2 or GatedDeltaNet with a linear-to-full ratio between 3:1 and 6:1
to achieve Transformer-level recall efficiently. Our models are open-sourced at
https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.