Transformers zijn SSM's: Gegeneraliseerde Modellen en Efficiënte Algoritmen via Gestructureerde Toestandsruimte Dualiteit

Samenvatting

Hoewel Transformers de belangrijkste architectuur zijn geweest achter het succes van deep learning in taalmodelering, is recentelijk aangetoond dat state-space modellen (SSMs) zoals Mampa Transformers kunnen evenaren of overtreffen op kleine tot middelgrote schaal. Wij laten zien dat deze families van modellen eigenlijk nauw verwant zijn, en ontwikkelen een rijk theoretisch kader van verbanden tussen SSMs en varianten van aandacht, verbonden via verschillende decomposities van een goed bestudeerde klasse van gestructureerde semiseparabele matrices. Ons state-space dualiteitskader (SSD) stelt ons in staat een nieuwe architectuur (Mamba-2) te ontwerpen waarvan de kernlaag een verfijning is van Mamba's selectieve SSM die 2-8 keer sneller is, terwijl deze competitief blijft met Transformers op het gebied van taalmodelering.

English

While Transformers have been the main architecture behind deep learning's success in language modeling, state-space models (SSMs) such as Mamba have recently been shown to match or outperform Transformers at small to medium scale. We show that these families of models are actually quite closely related, and develop a rich framework of theoretical connections between SSMs and variants of attention, connected through various decompositions of a well-studied class of structured semiseparable matrices. Our state space duality (SSD) framework allows us to design a new architecture (Mamba-2) whose core layer is an a refinement of Mamba's selective SSM that is 2-8X faster, while continuing to be competitive with Transformers on language modeling.

Transformers zijn SSM's: Gegeneraliseerde Modellen en Efficiënte Algoritmen via Gestructureerde Toestandsruimte Dualiteit

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Samenvatting

Support