2Mamba2Furioso: Lineare nella Complessità, Competitivo nella Precisione

Abstract

I transformer ad attenzione lineare sono diventati una valida alternativa all'attenzione softmax grazie alla loro efficienza. Tuttavia, l'attenzione lineare tende ad essere meno espressiva e comporta una ridotta accuratezza rispetto all'attenzione softmax. Per colmare il divario di accuratezza tra l'attenzione softmax e quella lineare, interveniamo su Mamba-2, una variante di attenzione lineare molto potente. Iniziamo semplificando Mamba-2 fino ai suoi componenti più fondamentali e importanti, valutando quali scelte specifiche la rendano più accurata. A partire da questa variante semplificata di Mamba (Mamba-2S), miglioriamo la maschera A e aumentiamo l'ordine dello stato nascosto, ottenendo un metodo, che chiamiamo 2Mamba, che è quasi accurato quanto l'attenzione softmax, ma molto più efficiente in termini di memoria per contesti lunghi. Indaghiamo anche gli elementi di Mamba-2 che contribuiscono a superare l'accuratezza dell'attenzione softmax. Il codice per tutti i nostri esperimenti è fornito.

English

Linear attention transformers have become a strong alternative to softmax attention due to their efficiency. However, linear attention tends to be less expressive and results in reduced accuracy compared to softmax attention. To bridge the accuracy gap between softmax attention and linear attention, we manipulate Mamba-2, a very strong linear attention variant. We first simplify Mamba-2 down to its most fundamental and important components, evaluating which specific choices make it most accurate. From this simplified Mamba variant (Mamba-2S), we improve the A-mask and increase the order of the hidden state, resulting in a method, which we call 2Mamba, that is nearly as accurate as softmax attention, yet much more memory efficient for long context lengths. We also investigate elements to Mamba-2 that help surpass softmax attention accuracy. Code is provided for all our experiments

2Mamba2Furioso: Lineare nella Complessità, Competitivo nella Precisione

2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

Abstract

Support