2Mamba2Furious: Lineal en Complejidad, Competitivo en Precisión
2Mamba2Furious: Linear in Complexity, Competitive in Accuracy
February 19, 2026
Autores: Gabriel Mongaras, Eric C. Larson
cs.AI
Resumen
Los transformadores de atención lineal se han convertido en una alternativa sólida a la atención softmax debido a su eficiencia. Sin embargo, la atención lineal tiende a ser menos expresiva y produce una precisión reducida en comparación con la atención softmax. Para reducir la brecha de precisión entre la atención softmax y la atención lineal, manipulamos Mamba-2, una variante de atención lineal muy potente. Primero simplificamos Mamba-2 hasta sus componentes más fundamentales e importantes, evaluando qué elecciones específicas la hacen más precisa. A partir de esta variante simplificada de Mamba (Mamba-2S), mejoramos la máscara A y aumentamos el orden del estado oculto, lo que da como resultado un método, que llamamos 2Mamba, que es casi tan preciso como la atención softmax, pero mucho más eficiente en memoria para longitudes de contexto largas. También investigamos los elementos de Mamba-2 que ayudan a superar la precisión de la atención softmax. Se proporciona código para todos nuestros experimentos.
English
Linear attention transformers have become a strong alternative to softmax attention due to their efficiency. However, linear attention tends to be less expressive and results in reduced accuracy compared to softmax attention. To bridge the accuracy gap between softmax attention and linear attention, we manipulate Mamba-2, a very strong linear attention variant. We first simplify Mamba-2 down to its most fundamental and important components, evaluating which specific choices make it most accurate. From this simplified Mamba variant (Mamba-2S), we improve the A-mask and increase the order of the hidden state, resulting in a method, which we call 2Mamba, that is nearly as accurate as softmax attention, yet much more memory efficient for long context lengths. We also investigate elements to Mamba-2 that help surpass softmax attention accuracy. Code is provided for all our experiments