ChatPaper.aiChatPaper

SiMBA: Arquitectura Basada en Mamba Simplificada para Visión y Series Temporales Multivariadas

SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series

March 22, 2024
Autores: Badri N. Patro, Vijay S. Agneeswaran
cs.AI

Resumen

Los Transformers han adoptado ampliamente redes de atención para la mezcla de secuencias y MLPs para la mezcla de canales, desempeñando un papel fundamental en la consecución de avances en diversos dominios. Sin embargo, la literatura reciente destaca problemas con las redes de atención, incluyendo un bajo sesgo inductivo y una complejidad cuadrática en relación con la longitud de la secuencia de entrada. Los Modelos de Espacio de Estados (SSMs, por sus siglas en inglés) como S4 y otros (Hippo, Convoluciones Globales, liquid S4, LRU, Mega y Mamba) han surgido para abordar estos problemas y ayudar a manejar secuencias más largas. Mamba, aunque es el SSM más avanzado, presenta un problema de estabilidad cuando se escala a redes grandes para conjuntos de datos de visión por computadora. Proponemos SiMBA, una nueva arquitectura que introduce la Transformada Rápida de Fourier de Einstein (EinFFT) para el modelado de canales mediante cálculos específicos de valores propios y utiliza el bloque Mamba para el modelado de secuencias. Estudios exhaustivos de rendimiento en benchmarks de imágenes y series temporales demuestran que SiMBA supera a los SSMs existentes, cerrando la brecha de rendimiento con los transformers más avanzados. Notablemente, SiMBA se establece como el nuevo SSM más avanzado en ImageNet y benchmarks de aprendizaje por transferencia como Stanford Car y Flower, así como en benchmarks de aprendizaje de tareas y siete conjuntos de datos de series temporales. La página del proyecto está disponible en este sitio web ~https://github.com/badripatro/Simba.
English
Transformers have widely adopted attention networks for sequence mixing and MLPs for channel mixing, playing a pivotal role in achieving breakthroughs across domains. However, recent literature highlights issues with attention networks, including low inductive bias and quadratic complexity concerning input sequence length. State Space Models (SSMs) like S4 and others (Hippo, Global Convolutions, liquid S4, LRU, Mega, and Mamba), have emerged to address the above issues to help handle longer sequence lengths. Mamba, while being the state-of-the-art SSM, has a stability issue when scaled to large networks for computer vision datasets. We propose SiMBA, a new architecture that introduces Einstein FFT (EinFFT) for channel modeling by specific eigenvalue computations and uses the Mamba block for sequence modeling. Extensive performance studies across image and time-series benchmarks demonstrate that SiMBA outperforms existing SSMs, bridging the performance gap with state-of-the-art transformers. Notably, SiMBA establishes itself as the new state-of-the-art SSM on ImageNet and transfer learning benchmarks such as Stanford Car and Flower as well as task learning benchmarks as well as seven time series benchmark datasets. The project page is available on this website ~https://github.com/badripatro/Simba.

Summary

AI-Generated Summary

PDF131December 15, 2024