Трансформеры - это ССМ: Обобщенные модели и эффективные алгоритмы через дуализм структурированного пространства состояний
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
May 31, 2024
Авторы: Tri Dao, Albert Gu
cs.AI
Аннотация
Хотя Трансформеры были основной архитектурой, лежащей в основе успеха глубокого обучения в моделировании языка, модели пространства состояний (SSM), такие как Mamba, недавно были показаны способными соперничать или превосходить Трансформеры на небольших и средних масштабах. Мы показываем, что эти семейства моделей фактически достаточно тесно связаны и разрабатываем богатую теоретическую связь между SSM и вариантами внимания, связанными через различные декомпозиции хорошо изученного класса структурированных полусепарабельных матриц. Наша концепция двойственности пространства состояний (SSD) позволяет нам разработать новую архитектуру (Mamba-2), основным слоем которой является усовершенствование селективной SSM Mamba, работающее в 2-8 раз быстрее, продолжая при этом конкурировать с Трансформерами в моделировании языка.
English
While Transformers have been the main architecture behind deep learning's
success in language modeling, state-space models (SSMs) such as Mamba have
recently been shown to match or outperform Transformers at small to medium
scale. We show that these families of models are actually quite closely
related, and develop a rich framework of theoretical connections between SSMs
and variants of attention, connected through various decompositions of a
well-studied class of structured semiseparable matrices. Our state space
duality (SSD) framework allows us to design a new architecture (Mamba-2) whose
core layer is an a refinement of Mamba's selective SSM that is 2-8X faster,
while continuing to be competitive with Transformers on language modeling.Summary
AI-Generated Summary