ReMamba: Mamba uitrusten met effectieve modellering van lange sequenties
ReMamba: Equip Mamba with Effective Long-Sequence Modeling
August 28, 2024
Auteurs: Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao
cs.AI
Samenvatting
Hoewel de Mamba-architectuur superieure inferentie-efficiëntie en competitieve prestaties vertoont bij kort-context natuurlijke taalverwerking (NLP)-taken, suggereert empirisch bewijs dat het vermogen om lange contexten te begrijpen beperkt is in vergelijking met transformer-gebaseerde modellen. In deze studie onderzoeken we de lange-context efficiëntieproblemen van de Mamba-modellen en introduceren we ReMamba, dat het vermogen van Mamba om lange contexten te begrijpen verbetert. ReMamba integreert selectieve compressie en aanpassingstechnieken binnen een tweestaps hervoorwaarts proces, wat resulteert in minimale extra inferentiekosten. Experimentele resultaten op de LongBench en L-Eval benchmarks tonen de effectiviteit van ReMamba aan, met verbeteringen van respectievelijk 3,2 en 1,6 punten ten opzichte van de basislijnen, en prestaties die bijna gelijk zijn aan transformer-modellen van dezelfde grootte.
English
While the Mamba architecture demonstrates superior inference efficiency and
competitive performance on short-context natural language processing (NLP)
tasks, empirical evidence suggests its capacity to comprehend long contexts is
limited compared to transformer-based models. In this study, we investigate the
long-context efficiency issues of the Mamba models and propose ReMamba, which
enhances Mamba's ability to comprehend long contexts. ReMamba incorporates
selective compression and adaptation techniques within a two-stage re-forward
process, incurring minimal additional inference costs overhead. Experimental
results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy,
improving over the baselines by 3.2 and 1.6 points, respectively, and attaining
performance almost on par with same-size transformer models.Summary
AI-Generated Summary