SiMBA: Arquitectura Basada en Mamba Simplificada para Visión y Series Temporales Multivariadas
SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series
March 22, 2024
Autores: Badri N. Patro, Vijay S. Agneeswaran
cs.AI
Resumen
Los Transformers han adoptado ampliamente redes de atención para la mezcla de secuencias y MLPs para la mezcla de canales, desempeñando un papel fundamental en la consecución de avances en diversos dominios. Sin embargo, la literatura reciente destaca problemas con las redes de atención, incluyendo un bajo sesgo inductivo y una complejidad cuadrática en relación con la longitud de la secuencia de entrada. Los Modelos de Espacio de Estados (SSMs, por sus siglas en inglés) como S4 y otros (Hippo, Convoluciones Globales, liquid S4, LRU, Mega y Mamba) han surgido para abordar estos problemas y ayudar a manejar secuencias más largas. Mamba, aunque es el SSM más avanzado, presenta un problema de estabilidad cuando se escala a redes grandes para conjuntos de datos de visión por computadora. Proponemos SiMBA, una nueva arquitectura que introduce la Transformada Rápida de Fourier de Einstein (EinFFT) para el modelado de canales mediante cálculos específicos de valores propios y utiliza el bloque Mamba para el modelado de secuencias. Estudios exhaustivos de rendimiento en benchmarks de imágenes y series temporales demuestran que SiMBA supera a los SSMs existentes, cerrando la brecha de rendimiento con los transformers más avanzados. Notablemente, SiMBA se establece como el nuevo SSM más avanzado en ImageNet y benchmarks de aprendizaje por transferencia como Stanford Car y Flower, así como en benchmarks de aprendizaje de tareas y siete conjuntos de datos de series temporales. La página del proyecto está disponible en este sitio web ~https://github.com/badripatro/Simba.
English
Transformers have widely adopted attention networks for sequence mixing and
MLPs for channel mixing, playing a pivotal role in achieving breakthroughs
across domains. However, recent literature highlights issues with attention
networks, including low inductive bias and quadratic complexity concerning
input sequence length. State Space Models (SSMs) like S4 and others (Hippo,
Global Convolutions, liquid S4, LRU, Mega, and Mamba), have emerged to address
the above issues to help handle longer sequence lengths. Mamba, while being the
state-of-the-art SSM, has a stability issue when scaled to large networks for
computer vision datasets. We propose SiMBA, a new architecture that introduces
Einstein FFT (EinFFT) for channel modeling by specific eigenvalue computations
and uses the Mamba block for sequence modeling. Extensive performance studies
across image and time-series benchmarks demonstrate that SiMBA outperforms
existing SSMs, bridging the performance gap with state-of-the-art transformers.
Notably, SiMBA establishes itself as the new state-of-the-art SSM on ImageNet
and transfer learning benchmarks such as Stanford Car and Flower as well as
task learning benchmarks as well as seven time series benchmark datasets. The
project page is available on this website
~https://github.com/badripatro/Simba.Summary
AI-Generated Summary