ChatPaper.aiChatPaper

ReMamba: Equipar a Mamba con un Modelo Efectivo de Secuencias Largas

ReMamba: Equip Mamba with Effective Long-Sequence Modeling

August 28, 2024
Autores: Danlong Yuan, Jiahao Liu, Bei Li, Huishuai Zhang, Jingang Wang, Xunliang Cai, Dongyan Zhao
cs.AI

Resumen

Si bien la arquitectura Mamba demuestra una eficiencia superior en inferencia y un rendimiento competitivo en tareas de procesamiento de lenguaje natural (NLP) de contexto corto, la evidencia empírica sugiere que su capacidad para comprender contextos largos es limitada en comparación con los modelos basados en transformadores. En este estudio, investigamos los problemas de eficiencia en contextos largos de los modelos Mamba y proponemos ReMamba, que mejora la capacidad de Mamba para comprender contextos largos. ReMamba incorpora técnicas de compresión selectiva y adaptación dentro de un proceso de reenvío de dos etapas, incurriendo en costos adicionales mínimos de inferencia. Los resultados experimentales en los benchmarks LongBench y L-Eval demuestran la eficacia de ReMamba, mejorando sobre los resultados base en 3.2 y 1.6 puntos, respectivamente, y alcanzando un rendimiento casi al nivel de los modelos transformadores del mismo tamaño.
English
While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.

Summary

AI-Generated Summary

PDF122November 16, 2024