ChatPaper.aiChatPaper

2Mamba2Furious: Linear in der Komplexität, wettbewerbsfähig in der Genauigkeit

2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

February 19, 2026
papers.authors: Gabriel Mongaras, Eric C. Larson
cs.AI

papers.abstract

Lineare Attention-Transformer haben sich aufgrund ihrer Effizienz zu einer starken Alternative zur Softmax-Attention entwickelt. Allerdings ist lineare Attention in der Regel weniger ausdrucksstark und führt im Vergleich zur Softmax-Attention zu einer geringeren Genauigkeit. Um die Genauigkeitslücke zwischen Softmax-Attention und linearer Attention zu schließen, modifizieren wir Mamba-2, eine sehr leistungsfähige Variante der linearen Attention. Wir vereinfachen zunächst Mamba-2 auf seine grundlegendsten und wichtigsten Komponenten und evaluieren, welche spezifischen Designentscheidungen für seine hohe Genauigkeit verantwortlich sind. Aus dieser vereinfachten Mamba-Variante (Mamba-2S) heraus verbessern wir die A-Maske und erhöhen die Ordnung des versteckten Zustands. Dies führt zu einer Methode, die wir 2Mamba nennen und die nahezu so genau wie Softmax-Attention ist, jedoch bei langen Kontextlängen deutlich speichereffizienter arbeitet. Wir untersuchen auch Elemente von Mamba-2, die dazu beitragen, die Genauigkeit der Softmax-Attention zu übertreffen. Der Code für alle unsere Experimente wird bereitgestellt.
English
Linear attention transformers have become a strong alternative to softmax attention due to their efficiency. However, linear attention tends to be less expressive and results in reduced accuracy compared to softmax attention. To bridge the accuracy gap between softmax attention and linear attention, we manipulate Mamba-2, a very strong linear attention variant. We first simplify Mamba-2 down to its most fundamental and important components, evaluating which specific choices make it most accurate. From this simplified Mamba variant (Mamba-2S), we improve the A-mask and increase the order of the hidden state, resulting in a method, which we call 2Mamba, that is nearly as accurate as softmax attention, yet much more memory efficient for long context lengths. We also investigate elements to Mamba-2 that help surpass softmax attention accuracy. Code is provided for all our experiments
PDF23February 21, 2026