ReMamba: 효과적인 장기 시퀀스 모델링을 위한 Mamba 장비
ReMamba: Equip Mamba with Effective Long-Sequence Modeling
August 28, 2024
저자: Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao
cs.AI
초록
Mamba 아키텍처는 단문 맥락 자연어 처리(NLP) 작업에서 우수한 추론 효율성과 경쟁력 있는 성능을 보여주지만, 경험적 증거는 그가 장문 맥락을 이해하는 능력이 트랜스포머 기반 모델과 비교하여 제한되어 있다는 것을 시사합니다. 본 연구에서는 Mamba 모델의 장문 맥락 효율성 문제를 조사하고, 장문 맥락을 이해하는 능력을 향상시키는 ReMamba를 제안합니다. ReMamba는 선택적 압축 및 적응 기술을 두 단계의 재전달 과정 내에 통합하여 추가적인 추론 비용 부담을 최소화합니다. LongBench 및 L-Eval 벤치마크에서의 실험 결과는 ReMamba의 효과를 입증하며, 각각 3.2점과 1.6점의 개선을 보여주며, 동일 크기의 트랜스포머 모델과 거의 동등한 성능을 달성합니다.
English
While the Mamba architecture demonstrates superior inference efficiency and
competitive performance on short-context natural language processing (NLP)
tasks, empirical evidence suggests its capacity to comprehend long contexts is
limited compared to transformer-based models. In this study, we investigate the
long-context efficiency issues of the Mamba models and propose ReMamba, which
enhances Mamba's ability to comprehend long contexts. ReMamba incorporates
selective compression and adaptation techniques within a two-stage re-forward
process, incurring minimal additional inference costs overhead. Experimental
results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy,
improving over the baselines by 3.2 and 1.6 points, respectively, and attaining
performance almost on par with same-size transformer models.Summary
AI-Generated Summary