Transformer sind SSMs: Generalisierte Modelle und effiziente Algorithmen durch strukturielle Dualität im Zustandsraum.

Zusammenfassung

Während Transformers die Hauptarchitektur hinter dem Erfolg des Deep Learning im Bereich des Sprachmodellierens waren, haben Zustandsraummodelle (SSMs) wie Mamba kürzlich gezeigt, dass sie Transformers in kleinerem bis mittlerem Maßstab erreichen oder übertreffen können. Wir zeigen, dass diese Modellfamilien tatsächlich eng miteinander verwandt sind und ein reichhaltiges Rahmenwerk theoretischer Verbindungen zwischen SSMs und Varianten der Aufmerksamkeit entwickeln, die durch verschiedene Zerlegungen einer gut erforschten Klasse strukturierte semiseperabler Matrizen verbunden sind. Unser Zustandsraum-Dualitäts (SSD) Rahmenwerk ermöglicht es uns, eine neue Architektur (Mamba-2) zu entwerfen, deren Kernschicht eine Verfeinerung des selektiven SSM von Mamba ist, die 2-8-mal schneller ist, während sie weiterhin im Bereich des Sprachmodellierens wettbewerbsfähig mit Transformers bleibt.

English

While Transformers have been the main architecture behind deep learning's success in language modeling, state-space models (SSMs) such as Mamba have recently been shown to match or outperform Transformers at small to medium scale. We show that these families of models are actually quite closely related, and develop a rich framework of theoretical connections between SSMs and variants of attention, connected through various decompositions of a well-studied class of structured semiseparable matrices. Our state space duality (SSD) framework allows us to design a new architecture (Mamba-2) whose core layer is an a refinement of Mamba's selective SSM that is 2-8X faster, while continuing to be competitive with Transformers on language modeling.

Transformer sind SSMs: Generalisierte Modelle und effiziente Algorithmen durch strukturielle Dualität im Zustandsraum.

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Zusammenfassung

Support