ChatPaper.aiChatPaper

2Mamba2Furious : Linéaire en complexité, compétitif en précision

2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

February 19, 2026
papers.authors: Gabriel Mongaras, Eric C. Larson
cs.AI

papers.abstract

Les transformeurs à attention linéaire sont devenus une alternative solide à l'attention softmax en raison de leur efficacité. Cependant, l'attention linéaire tend à être moins expressive et entraîne une précision réduite par rapport à l'attention softmax. Pour combler l'écart de précision entre l'attention softmax et l'attention linéaire, nous manipulons Mamba-2, une variante d'attention linéaire très performante. Nous commençons par simplifier Mamba-2 jusqu'à ses composants les plus fondamentaux et importants, en évaluant les choix spécifiques qui le rendent le plus précis. À partir de cette variante simplifiée de Mamba (Mamba-2S), nous améliorons le masque A et augmentons l'ordre de l'état caché, aboutissant à une méthode, que nous appelons 2Mamba, qui est presque aussi précise que l'attention softmax, tout en étant beaucoup plus efficace en mémoire pour de longues longueurs de contexte. Nous étudions également les éléments de Mamba-2 qui aident à surpasser la précision de l'attention softmax. Le code de toutes nos expériences est fourni.
English
Linear attention transformers have become a strong alternative to softmax attention due to their efficiency. However, linear attention tends to be less expressive and results in reduced accuracy compared to softmax attention. To bridge the accuracy gap between softmax attention and linear attention, we manipulate Mamba-2, a very strong linear attention variant. We first simplify Mamba-2 down to its most fundamental and important components, evaluating which specific choices make it most accurate. From this simplified Mamba variant (Mamba-2S), we improve the A-mask and increase the order of the hidden state, resulting in a method, which we call 2Mamba, that is nearly as accurate as softmax attention, yet much more memory efficient for long context lengths. We also investigate elements to Mamba-2 that help surpass softmax attention accuracy. Code is provided for all our experiments
PDF23February 21, 2026