ReMamba: Equipar a Mamba con un Modelo Efectivo de Secuencias Largas

Resumen

Si bien la arquitectura Mamba demuestra una eficiencia superior en inferencia y un rendimiento competitivo en tareas de procesamiento de lenguaje natural (NLP) de contexto corto, la evidencia empírica sugiere que su capacidad para comprender contextos largos es limitada en comparación con los modelos basados en transformadores. En este estudio, investigamos los problemas de eficiencia en contextos largos de los modelos Mamba y proponemos ReMamba, que mejora la capacidad de Mamba para comprender contextos largos. ReMamba incorpora técnicas de compresión selectiva y adaptación dentro de un proceso de reenvío de dos etapas, incurriendo en costos adicionales mínimos de inferencia. Los resultados experimentales en los benchmarks LongBench y L-Eval demuestran la eficacia de ReMamba, mejorando sobre los resultados base en 3.2 y 1.6 puntos, respectivamente, y alcanzando un rendimiento casi al nivel de los modelos transformadores del mismo tamaño.

English

While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.

ReMamba: Equipar a Mamba con un Modelo Efectivo de Secuencias Largas

ReMamba: Equip Mamba with Effective Long-Sequence Modeling

Resumen

Support