SiMBA: Упрощенная архитектура на основе Mamba для зрения и многомерных временных рядов

Аннотация

Трансформеры широко используют сети внимания для смешивания последовательностей и MLP для смешивания каналов, играя ключевую роль в достижении прорывов в различных областях. Однако недавняя литература выделяет проблемы с сетями внимания, включая низкое индуктивное смещение и квадратичную сложность в отношении длины входной последовательности. Модели пространства состояний (SSM), такие как S4 и другие (Hippo, Глобальные свертки, жидкий S4, LRU, Mega и Mamba), появились для решения вышеуказанных проблем, чтобы помочь обрабатывать более длинные последовательности. Mamba, будучи самым передовым SSM, имеет проблему стабильности при масштабировании на большие сети для наборов данных компьютерного зрения. Мы предлагаем SiMBA, новую архитектуру, которая вводит Einstein FFT (EinFFT) для моделирования каналов с помощью специфических вычислений собственных значений и использует блок Mamba для моделирования последовательности. Обширные исследования производительности на изображениях и временных рядах демонстрируют, что SiMBA превосходит существующие SSM, сокращая разрыв в производительности с передовыми трансформерами. Значительно, SiMBA утверждает себя как новейший SSM на ImageNet и бенчмарках обучения передачи, таких как Stanford Car и Flower, а также бенчмарках обучения задач, а также на семи наборах данных временных рядов. Страница проекта доступна на этом веб-сайте ~https://github.com/badripatro/Simba.

English

Transformers have widely adopted attention networks for sequence mixing and MLPs for channel mixing, playing a pivotal role in achieving breakthroughs across domains. However, recent literature highlights issues with attention networks, including low inductive bias and quadratic complexity concerning input sequence length. State Space Models (SSMs) like S4 and others (Hippo, Global Convolutions, liquid S4, LRU, Mega, and Mamba), have emerged to address the above issues to help handle longer sequence lengths. Mamba, while being the state-of-the-art SSM, has a stability issue when scaled to large networks for computer vision datasets. We propose SiMBA, a new architecture that introduces Einstein FFT (EinFFT) for channel modeling by specific eigenvalue computations and uses the Mamba block for sequence modeling. Extensive performance studies across image and time-series benchmarks demonstrate that SiMBA outperforms existing SSMs, bridging the performance gap with state-of-the-art transformers. Notably, SiMBA establishes itself as the new state-of-the-art SSM on ImageNet and transfer learning benchmarks such as Stanford Car and Flower as well as task learning benchmarks as well as seven time series benchmark datasets. The project page is available on this website ~https://github.com/badripatro/Simba.

SiMBA: Упрощенная архитектура на основе Mamba для зрения и многомерных временных рядов

SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series

Аннотация

Support