ReMamba: Dotare Mamba di un Modello Efficace per la Modellazione di Lunghe Sequenze

Abstract

Mentre l'architettura Mamba dimostra una superiore efficienza inferenziale e prestazioni competitive su compiti di elaborazione del linguaggio naturale (NLP) a breve contesto, le prove empiriche suggeriscono che la sua capacità di comprendere contesti lunghi sia limitata rispetto ai modelli basati su trasformatori. In questo studio, investighiamo le problematiche di efficienza dei contesti lunghi dei modelli Mamba e proponiamo ReMamba, che potenzia la capacità di Mamba di comprendere contesti lunghi. ReMamba incorpora tecniche di compressione selettiva e adattamento all'interno di un processo di rinnovamento a due fasi, con un costo di inferenza aggiuntivo minimo. I risultati sperimentali sui benchmark LongBench e L-Eval dimostrano l'efficacia di ReMamba, migliorando rispettivamente del 3,2 e 1,6 punti rispetto alle baselines e raggiungendo prestazioni quasi alla pari con modelli trasformatori della stessa dimensione.

English

While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.

ReMamba: Dotare Mamba di un Modello Efficace per la Modellazione di Lunghe Sequenze

ReMamba: Equip Mamba with Effective Long-Sequence Modeling

Abstract

Support