Mamba: Modelado de Secuencias en Tiempo Lineal con Espacios de Estado Selectivos

Resumen

Los modelos fundacionales, que ahora impulsan la mayoría de las aplicaciones más destacadas en el aprendizaje profundo, se basan casi universalmente en la arquitectura Transformer y su módulo central de atención. Se han desarrollado muchas arquitecturas de tiempo subcuadrático, como la atención lineal, las convoluciones con compuertas, los modelos recurrentes y los modelos de espacio de estados estructurados (SSM, por sus siglas en inglés), para abordar la ineficiencia computacional de los Transformers en secuencias largas. Sin embargo, no han tenido un rendimiento tan bueno como la atención en modalidades importantes como el lenguaje. Identificamos que una debilidad clave de estos modelos es su incapacidad para realizar razonamientos basados en contenido, y proponemos varias mejoras. En primer lugar, simplemente permitir que los parámetros del SSM sean funciones de la entrada aborda su debilidad con modalidades discretas, lo que permite al modelo propagar o descartar información selectivamente a lo largo de la dimensión de longitud de la secuencia según el token actual. En segundo lugar, aunque este cambio impide el uso de convoluciones eficientes, diseñamos un algoritmo paralelo consciente del hardware en modo recurrente. Integramos estos SSM selectivos en una arquitectura de red neuronal simplificada de extremo a extremo, sin atención ni bloques MLP (Mamba). Mamba disfruta de una inferencia rápida (5 veces mayor rendimiento que los Transformers) y una escalabilidad lineal en la longitud de la secuencia, y su rendimiento mejora en datos reales hasta secuencias de millones de elementos. Como columna vertebral general para modelos de secuencias, Mamba logra un rendimiento de vanguardia en varias modalidades, como lenguaje, audio y genómica. En modelado de lenguaje, nuestro modelo Mamba-3B supera a Transformers del mismo tamaño y se iguala a Transformers del doble de su tamaño, tanto en preentrenamiento como en evaluación en tareas posteriores.

English

Foundation models, now powering most of the exciting applications in deep learning, are almost universally based on the Transformer architecture and its core attention module. Many subquadratic-time architectures such as linear attention, gated convolution and recurrent models, and structured state space models (SSMs) have been developed to address Transformers' computational inefficiency on long sequences, but they have not performed as well as attention on important modalities such as language. We identify that a key weakness of such models is their inability to perform content-based reasoning, and make several improvements. First, simply letting the SSM parameters be functions of the input addresses their weakness with discrete modalities, allowing the model to selectively propagate or forget information along the sequence length dimension depending on the current token. Second, even though this change prevents the use of efficient convolutions, we design a hardware-aware parallel algorithm in recurrent mode. We integrate these selective SSMs into a simplified end-to-end neural network architecture without attention or even MLP blocks (Mamba). Mamba enjoys fast inference (5times higher throughput than Transformers) and linear scaling in sequence length, and its performance improves on real data up to million-length sequences. As a general sequence model backbone, Mamba achieves state-of-the-art performance across several modalities such as language, audio, and genomics. On language modeling, our Mamba-3B model outperforms Transformers of the same size and matches Transformers twice its size, both in pretraining and downstream evaluation.

Mamba: Modelado de Secuencias en Tiempo Lineal con Espacios de Estado Selectivos

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Resumen

Support