ReMamba : Équiper Mamba d'une Modélisation Efficace de Longues Séquences

papers.abstract

Alors que l'architecture Mamba démontre une efficacité d'inférence supérieure et des performances compétitives sur des tâches de traitement automatique du langage naturel (TALN) à court contexte, des preuves empiriques suggèrent que sa capacité à comprendre de longs contextes est limitée par rapport aux modèles basés sur les transformers. Dans cette étude, nous examinons les problèmes d'efficacité des longs contextes des modèles Mamba et proposons ReMamba, qui améliore la capacité de Mamba à comprendre de longs contextes. ReMamba intègre des techniques de compression sélective et d'adaptation dans un processus de réacheminement en deux étapes, entraînant des coûts d'inférence supplémentaires minimes. Les résultats expérimentaux sur les bancs d'essai LongBench et L-Eval démontrent l'efficacité de ReMamba, améliorant respectivement les références de 3,2 et 1,6 points, et atteignant des performances presque équivalentes à celles des modèles transformers de même taille.

English

While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.

ReMamba : Équiper Mamba d'une Modélisation Efficace de Longues Séquences

ReMamba: Equip Mamba with Effective Long-Sequence Modeling

papers.abstract

Support