ReMamba: Equipar a Mamba con un Modelo Efectivo de Secuencias Largas
ReMamba: Equip Mamba with Effective Long-Sequence Modeling
August 28, 2024
Autores: Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao
cs.AI
Resumen
Si bien la arquitectura Mamba demuestra una eficiencia superior en inferencia y un rendimiento competitivo en tareas de procesamiento de lenguaje natural (NLP) de contexto corto, la evidencia empírica sugiere que su capacidad para comprender contextos largos es limitada en comparación con los modelos basados en transformadores. En este estudio, investigamos los problemas de eficiencia en contextos largos de los modelos Mamba y proponemos ReMamba, que mejora la capacidad de Mamba para comprender contextos largos. ReMamba incorpora técnicas de compresión selectiva y adaptación dentro de un proceso de reenvío de dos etapas, incurriendo en costos adicionales mínimos de inferencia. Los resultados experimentales en los benchmarks LongBench y L-Eval demuestran la eficacia de ReMamba, mejorando sobre los resultados base en 3.2 y 1.6 puntos, respectivamente, y alcanzando un rendimiento casi al nivel de los modelos transformadores del mismo tamaño.
English
While the Mamba architecture demonstrates superior inference efficiency and
competitive performance on short-context natural language processing (NLP)
tasks, empirical evidence suggests its capacity to comprehend long contexts is
limited compared to transformer-based models. In this study, we investigate the
long-context efficiency issues of the Mamba models and propose ReMamba, which
enhances Mamba's ability to comprehend long contexts. ReMamba incorporates
selective compression and adaptation techniques within a two-stage re-forward
process, incurring minimal additional inference costs overhead. Experimental
results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy,
improving over the baselines by 3.2 and 1.6 points, respectively, and attaining
performance almost on par with same-size transformer models.Summary
AI-Generated Summary