ChatPaper.aiChatPaper

ReMamba: 効果的な長シーケンスモデリングを備えたマンバ

ReMamba: Equip Mamba with Effective Long-Sequence Modeling

August 28, 2024
著者: Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao
cs.AI

要旨

Mambaアーキテクチャは、短いコンテキストの自然言語処理(NLP)タスクにおいて優れた推論効率と競争力のパフォーマンスを示していますが、実証的な証拠から、長いコンテキストを理解する能力は、transformerベースのモデルと比較して限られているとされています。本研究では、Mambaモデルの長いコンテキストの効率性の問題を調査し、長いコンテキストを理解する能力を向上させるReMambaを提案します。ReMambaは、選択的な圧縮と適応技術を、追加の推論コストを最小限に抑える2段階の再転送プロセス内に組み込んでいます。LongBenchとL-Evalのベンチマークでの実験結果は、ReMambaの効果を示し、それぞれベースラインより3.2ポイントと1.6ポイント向上し、同じサイズのtransformerモデルとほぼ同等のパフォーマンスを達成しています。
English
While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.

Summary

AI-Generated Summary

PDF122November 16, 2024