ReMamba : Équiper Mamba d'une Modélisation Efficace de Longues Séquences
ReMamba: Equip Mamba with Effective Long-Sequence Modeling
August 28, 2024
Auteurs: Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao
cs.AI
Résumé
Alors que l'architecture Mamba démontre une efficacité d'inférence supérieure et des performances compétitives sur des tâches de traitement automatique du langage naturel (TALN) à court contexte, des preuves empiriques suggèrent que sa capacité à comprendre de longs contextes est limitée par rapport aux modèles basés sur les transformers. Dans cette étude, nous examinons les problèmes d'efficacité des longs contextes des modèles Mamba et proposons ReMamba, qui améliore la capacité de Mamba à comprendre de longs contextes. ReMamba intègre des techniques de compression sélective et d'adaptation dans un processus de réacheminement en deux étapes, entraînant des coûts d'inférence supplémentaires minimes. Les résultats expérimentaux sur les bancs d'essai LongBench et L-Eval démontrent l'efficacité de ReMamba, améliorant respectivement les références de 3,2 et 1,6 points, et atteignant des performances presque équivalentes à celles des modèles transformers de même taille.
English
While the Mamba architecture demonstrates superior inference efficiency and
competitive performance on short-context natural language processing (NLP)
tasks, empirical evidence suggests its capacity to comprehend long contexts is
limited compared to transformer-based models. In this study, we investigate the
long-context efficiency issues of the Mamba models and propose ReMamba, which
enhances Mamba's ability to comprehend long contexts. ReMamba incorporates
selective compression and adaptation techniques within a two-stage re-forward
process, incurring minimal additional inference costs overhead. Experimental
results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy,
improving over the baselines by 3.2 and 1.6 points, respectively, and attaining
performance almost on par with same-size transformer models.Summary
AI-Generated Summary