2Mamba2Furioso: Linear em Complexidade, Competitivo em Precisão

Resumo

Os transformadores de atenção linear tornaram-se uma forte alternativa à atenção softmax devido à sua eficiência. No entanto, a atenção linear tende a ser menos expressiva e resulta em precisão reduzida em comparação com a atenção softmax. Para preencher a lacuna de precisão entre a atenção softmax e a atenção linear, manipulamos o Mamba-2, uma variante de atenção linear muito robusta. Primeiro, simplificamos o Mamba-2 até seus componentes mais fundamentais e importantes, avaliando quais escolhas específicas o tornam mais preciso. A partir desta variante simplificada do Mamba (Mamba-2S), melhoramos a máscara-A e aumentamos a ordem do estado oculto, resultando em um método, que chamamos de 2Mamba, que é quase tão preciso quanto a atenção softmax, porém muito mais eficiente em memória para contextos longos. Também investigamos elementos do Mamba-2 que ajudam a superar a precisão da atenção softmax. O código é fornecido para todos os nossos experimentos.

English

Linear attention transformers have become a strong alternative to softmax attention due to their efficiency. However, linear attention tends to be less expressive and results in reduced accuracy compared to softmax attention. To bridge the accuracy gap between softmax attention and linear attention, we manipulate Mamba-2, a very strong linear attention variant. We first simplify Mamba-2 down to its most fundamental and important components, evaluating which specific choices make it most accurate. From this simplified Mamba variant (Mamba-2S), we improve the A-mask and increase the order of the hidden state, resulting in a method, which we call 2Mamba, that is nearly as accurate as softmax attention, yet much more memory efficient for long context lengths. We also investigate elements to Mamba-2 that help surpass softmax attention accuracy. Code is provided for all our experiments

2Mamba2Furioso: Linear em Complexidade, Competitivo em Precisão

2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

Resumo

Support