TransMamba: Flexibles Wechseln zwischen Transformer und Mamba

papers.abstract

Transformer sind der Eckpfeiler moderner großer Sprachmodelle, doch ihre quadratische Rechenkomplexität schränkt die Effizienz bei der Verarbeitung langer Sequenzen ein. Jüngste Fortschritte bei Mamba, einem Zustandsraummodell (State Space Model, SSM) mit linearer Komplexität, bieten vielversprechende Effizienzgewinne, leiden jedoch unter instabilem kontextuellem Lernen und mangelnder Generalisierung bei Mehrfachaufgaben. In diesem Artikel wird TransMamba vorgeschlagen, ein neuartiges Framework, das Transformer und Mamba durch gemeinsame Parametermatrizen (z. B. QKV und CBx) vereint und somit dynamisch zwischen Aufmerksamkeits- und SSM-Mechanismen bei unterschiedlichen Token-Längen und Schichten wechseln kann. Wir entwickeln den Memory Converter, um Transformer und Mamba zu verbinden, indem Aufmerksamkeitsausgaben in SSM-kompatible Zustände umgewandelt werden, wodurch ein nahtloser Informationsfluss an den TransPoints, an denen die Transformation stattfindet, sichergestellt wird. Die TransPoint-Planung wird ebenfalls umfassend untersucht, um weitere Verbesserungen zu erzielen. Wir führten umfangreiche Experimente durch, die zeigen, dass TransMamba eine überlegene Trainings effizienz und Leistung im Vergleich zu den Baselines erreicht, und bestätigten die tiefere Konsistenz zwischen den Transformer- und Mamba-Paradigmen, was eine skalierbare Lösung für die nächste Generation der Sequenzmodellierung bietet.

English

Transformers are the cornerstone of modern large language models, but their quadratic computational complexity limits efficiency in long-sequence processing. Recent advancements in Mamba, a state space model (SSM) with linear complexity, offer promising efficiency gains but suffer from unstable contextual learning and multitask generalization. This paper proposes TransMamba, a novel framework that unifies Transformer and Mamba through shared parameter matrices (e.g., QKV and CBx), and thus could dynamically switch between attention and SSM mechanisms at different token lengths and layers. We design the Memory converter to bridge Transformer and Mamba by converting attention outputs into SSM-compatible states, ensuring seamless information flow at TransPoints where the transformation happens. The TransPoint scheduling is also thoroughly explored for further improvements. We conducted extensive experiments demonstrating that TransMamba achieves superior training efficiency and performance compared to baselines, and validated the deeper consistency between Transformer and Mamba paradigms, offering a scalable solution for next-generation sequence modeling.

TransMamba: Flexibles Wechseln zwischen Transformer und Mamba

TransMamba: Flexibly Switching between Transformer and Mamba

papers.abstract

Support