Los Transformers son SSMs: Modelos Generalizados y Algoritmos Eficientes a través de la Dualidad de Espacios de Estado Estructurados

Resumen

Si bien los Transformers han sido la arquitectura principal detrás del éxito del aprendizaje profundo en el modelado del lenguaje, los modelos de espacio de estados (SSMs, por sus siglas en inglés), como Mamba, han demostrado recientemente igualar o superar a los Transformers a pequeña y mediana escala. Mostramos que estas familias de modelos están, en realidad, estrechamente relacionadas, y desarrollamos un marco teórico rico de conexiones entre los SSMs y variantes de atención, vinculados a través de diversas descomposiciones de una clase bien estudiada de matrices semiseparables estructuradas. Nuestro marco de dualidad de espacio de estados (SSD, por sus siglas en inglés) nos permite diseñar una nueva arquitectura (Mamba-2) cuya capa central es una refinación del SSM selectivo de Mamba, que es de 2 a 8 veces más rápida, mientras continúa siendo competitiva con los Transformers en el modelado del lenguaje.

English

While Transformers have been the main architecture behind deep learning's success in language modeling, state-space models (SSMs) such as Mamba have recently been shown to match or outperform Transformers at small to medium scale. We show that these families of models are actually quite closely related, and develop a rich framework of theoretical connections between SSMs and variants of attention, connected through various decompositions of a well-studied class of structured semiseparable matrices. Our state space duality (SSD) framework allows us to design a new architecture (Mamba-2) whose core layer is an a refinement of Mamba's selective SSM that is 2-8X faster, while continuing to be competitive with Transformers on language modeling.

Los Transformers son SSMs: Modelos Generalizados y Algoritmos Eficientes a través de la Dualidad de Espacios de Estado Estructurados

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Resumen

Support