ChatPaper.aiChatPaper

2Mamba2Furious: Линейная сложность, конкурентоспособная точность

2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

February 19, 2026
Авторы: Gabriel Mongaras, Eric C. Larson
cs.AI

Аннотация

Трансформеры с линейным вниманием стали мощной альтернативой софтмакс-вниманию благодаря своей эффективности. Однако линейное внимание, как правило, менее выразительно и приводит к снижению точности по сравнению с софтмакс-вниманием. Чтобы сократить разрыв в точности между софтмакс-вниманием и линейным вниманием, мы модифицируем Mamba-2 — весьма мощный вариант линейного внимания. Сначала мы упрощаем Mamba-2 до её наиболее фундаментальных и важных компонентов, оценивая, какие именно архитектурные решения обеспечивают наибольшую точность. На основе этого упрощённого варианта Mamba (Mamba-2S) мы улучшаем A-маску и повышаем порядок скрытого состояния, в результате чего получаем метод, названный нами 2Mamba, который по точности практически не уступает софтмакс-вниманию, но при этом значительно более эффективен по памяти для длинных контекстов. Мы также исследуем элементы Mamba-2, которые позволяют превзойти точность софтмакс-внимания. Для всех наших экспериментов предоставлен код.
English
Linear attention transformers have become a strong alternative to softmax attention due to their efficiency. However, linear attention tends to be less expressive and results in reduced accuracy compared to softmax attention. To bridge the accuracy gap between softmax attention and linear attention, we manipulate Mamba-2, a very strong linear attention variant. We first simplify Mamba-2 down to its most fundamental and important components, evaluating which specific choices make it most accurate. From this simplified Mamba variant (Mamba-2S), we improve the A-mask and increase the order of the hidden state, resulting in a method, which we call 2Mamba, that is nearly as accurate as softmax attention, yet much more memory efficient for long context lengths. We also investigate elements to Mamba-2 that help surpass softmax attention accuracy. Code is provided for all our experiments
PDF23February 21, 2026