ReMamba: Mamba uitrusten met effectieve modellering van lange sequenties

Samenvatting

Hoewel de Mamba-architectuur superieure inferentie-efficiëntie en competitieve prestaties vertoont bij kort-context natuurlijke taalverwerking (NLP)-taken, suggereert empirisch bewijs dat het vermogen om lange contexten te begrijpen beperkt is in vergelijking met transformer-gebaseerde modellen. In deze studie onderzoeken we de lange-context efficiëntieproblemen van de Mamba-modellen en introduceren we ReMamba, dat het vermogen van Mamba om lange contexten te begrijpen verbetert. ReMamba integreert selectieve compressie en aanpassingstechnieken binnen een tweestaps hervoorwaarts proces, wat resulteert in minimale extra inferentiekosten. Experimentele resultaten op de LongBench en L-Eval benchmarks tonen de effectiviteit van ReMamba aan, met verbeteringen van respectievelijk 3,2 en 1,6 punten ten opzichte van de basislijnen, en prestaties die bijna gelijk zijn aan transformer-modellen van dezelfde grootte.

English

While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.

ReMamba: Mamba uitrusten met effectieve modellering van lange sequenties

ReMamba: Equip Mamba with Effective Long-Sequence Modeling

Samenvatting

Summary

Support

Support