Tecnologías sobre Efectividad y Eficiencia: Una Revisión de los Modelos de Espacios de Estados
Technologies on Effectiveness and Efficiency: A Survey of State Spaces Models
March 14, 2025
Autores: Xingtai Lv, Youbang Sun, Kaiyan Zhang, Shang Qu, Xuekai Zhu, Yuchen Fan, Yi Wu, Ermo Hua, Xinwei Long, Ning Ding, Bowen Zhou
cs.AI
Resumen
Los Modelos de Espacio de Estados (SSMs, por sus siglas en inglés) han surgido como una alternativa prometedora a los populares modelos basados en transformadores y han ido ganando cada vez más atención. En comparación con los transformadores, los SSMs destacan en tareas con datos secuenciales o contextos más largos, demostrando un rendimiento comparable con ganancias significativas en eficiencia. En este estudio, proporcionamos una visión general coherente y sistemática de los SSMs, incluyendo sus motivaciones teóricas, formulaciones matemáticas, comparación con clases de modelos existentes y diversas aplicaciones. Dividimos la serie de SSMs en tres secciones principales, ofreciendo una introducción detallada al SSM original, el SSM estructurado representado por S4 y el SSM selectivo ejemplificado por Mamba. Ponemos énfasis en los aspectos técnicos y destacamos las diversas técnicas clave introducidas para abordar la efectividad y eficiencia de los SSMs. Esperamos que este manuscrito sirva como una introducción para que los investigadores exploren los fundamentos teóricos de los SSMs.
English
State Space Models (SSMs) have emerged as a promising alternative to the
popular transformer-based models and have been increasingly gaining attention.
Compared to transformers, SSMs excel at tasks with sequential data or longer
contexts, demonstrating comparable performances with significant efficiency
gains. In this survey, we provide a coherent and systematic overview for SSMs,
including their theoretical motivations, mathematical formulations, comparison
with existing model classes, and various applications. We divide the SSM series
into three main sections, providing a detailed introduction to the original
SSM, the structured SSM represented by S4, and the selective SSM typified by
Mamba. We put an emphasis on technicality, and highlight the various key
techniques introduced to address the effectiveness and efficiency of SSMs. We
hope this manuscript serves as an introduction for researchers to explore the
theoretical foundations of SSMs.Summary
AI-Generated Summary