Технологии эффективности и производительности: обзор моделей пространств состояний
Technologies on Effectiveness and Efficiency: A Survey of State Spaces Models
March 14, 2025
Авторы: Xingtai Lv, Youbang Sun, Kaiyan Zhang, Shang Qu, Xuekai Zhu, Yuchen Fan, Yi Wu, Ermo Hua, Xinwei Long, Ning Ding, Bowen Zhou
cs.AI
Аннотация
Модели пространства состояний (SSM) зарекомендовали себя как перспективная альтернатива популярным моделям на основе трансформеров и привлекают всё больше внимания. По сравнению с трансформерами, SSM демонстрируют превосходство в задачах с последовательными данными или длинными контекстами, показывая сопоставимую производительность при значительном повышении эффективности. В данном обзоре мы представляем последовательный и систематический обзор SSM, включая их теоретические основы, математические формулировки, сравнение с существующими классами моделей и различные применения. Мы разделяем серию SSM на три основные части, подробно рассматривая оригинальную SSM, структурированную SSM, представленную моделью S4, и селективную SSM, примером которой является Mamba. Мы делаем акцент на технических аспектах и выделяем ключевые методы, разработанные для повышения эффективности и производительности SSM. Надеемся, что этот обзор послужит введением для исследователей, желающих изучить теоретические основы SSM.
English
State Space Models (SSMs) have emerged as a promising alternative to the
popular transformer-based models and have been increasingly gaining attention.
Compared to transformers, SSMs excel at tasks with sequential data or longer
contexts, demonstrating comparable performances with significant efficiency
gains. In this survey, we provide a coherent and systematic overview for SSMs,
including their theoretical motivations, mathematical formulations, comparison
with existing model classes, and various applications. We divide the SSM series
into three main sections, providing a detailed introduction to the original
SSM, the structured SSM represented by S4, and the selective SSM typified by
Mamba. We put an emphasis on technicality, and highlight the various key
techniques introduced to address the effectiveness and efficiency of SSMs. We
hope this manuscript serves as an introduction for researchers to explore the
theoretical foundations of SSMs.Summary
AI-Generated Summary