ReMamba: Rüsten Sie Mamba mit effektivem Langsequenzmodellieren aus.
ReMamba: Equip Mamba with Effective Long-Sequence Modeling
August 28, 2024
Autoren: Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao
cs.AI
Zusammenfassung
Während die Mamba-Architektur eine überlegene Inferenzeffizienz und eine wettbewerbsfähige Leistung bei der Verarbeitung natürlicher Sprache mit kurzen Kontexten zeigt, legen empirische Beweise nahe, dass ihre Fähigkeit, lange Kontexte zu erfassen, im Vergleich zu Transformer-Modellen begrenzt ist. In dieser Studie untersuchen wir die Effizienzprobleme von Mamba-Modellen bei langen Kontexten und schlagen ReMamba vor, das die Fähigkeit von Mamba, lange Kontexte zu erfassen, verbessert. ReMamba integriert selektive Kompressions- und Anpassungstechniken in einem zweistufigen Re-Forward-Prozess, wobei minimale zusätzliche Inferenzkosten anfallen. Experimentelle Ergebnisse auf den LongBench- und L-Eval-Benchmarks zeigen die Wirksamkeit von ReMamba, wobei Verbesserungen von jeweils 3,2 und 1,6 Punkten gegenüber den Ausgangswerten erzielt werden und eine Leistung erzielt wird, die fast auf dem Niveau von Transformer-Modellen gleicher Größe liegt.
English
While the Mamba architecture demonstrates superior inference efficiency and
competitive performance on short-context natural language processing (NLP)
tasks, empirical evidence suggests its capacity to comprehend long contexts is
limited compared to transformer-based models. In this study, we investigate the
long-context efficiency issues of the Mamba models and propose ReMamba, which
enhances Mamba's ability to comprehend long contexts. ReMamba incorporates
selective compression and adaptation techniques within a two-stage re-forward
process, incurring minimal additional inference costs overhead. Experimental
results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy,
improving over the baselines by 3.2 and 1.6 points, respectively, and attaining
performance almost on par with same-size transformer models.Summary
AI-Generated Summary