SiMBA: Упрощенная архитектура на основе Mamba для зрения и многомерных временных рядов
SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series
March 22, 2024
Авторы: Badri N. Patro, Vijay S. Agneeswaran
cs.AI
Аннотация
Трансформеры широко используют сети внимания для смешивания последовательностей и
MLP для смешивания каналов, играя ключевую роль в достижении прорывов
в различных областях. Однако недавняя литература выделяет проблемы с сетями внимания,
включая низкое индуктивное смещение и квадратичную сложность в отношении
длины входной последовательности. Модели пространства состояний (SSM), такие как S4 и другие (Hippo,
Глобальные свертки, жидкий S4, LRU, Mega и Mamba), появились для решения
вышеуказанных проблем, чтобы помочь обрабатывать более длинные последовательности. Mamba, будучи
самым передовым SSM, имеет проблему стабильности при масштабировании на большие сети для
наборов данных компьютерного зрения. Мы предлагаем SiMBA, новую архитектуру, которая вводит
Einstein FFT (EinFFT) для моделирования каналов с помощью специфических вычислений собственных значений
и использует блок Mamba для моделирования последовательности. Обширные исследования производительности
на изображениях и временных рядах демонстрируют, что SiMBA превосходит
существующие SSM, сокращая разрыв в производительности с передовыми трансформерами.
Значительно, SiMBA утверждает себя как новейший SSM на ImageNet
и бенчмарках обучения передачи, таких как Stanford Car и Flower, а также
бенчмарках обучения задач, а также на семи наборах данных временных рядов.
Страница проекта доступна на этом веб-сайте
~https://github.com/badripatro/Simba.
English
Transformers have widely adopted attention networks for sequence mixing and
MLPs for channel mixing, playing a pivotal role in achieving breakthroughs
across domains. However, recent literature highlights issues with attention
networks, including low inductive bias and quadratic complexity concerning
input sequence length. State Space Models (SSMs) like S4 and others (Hippo,
Global Convolutions, liquid S4, LRU, Mega, and Mamba), have emerged to address
the above issues to help handle longer sequence lengths. Mamba, while being the
state-of-the-art SSM, has a stability issue when scaled to large networks for
computer vision datasets. We propose SiMBA, a new architecture that introduces
Einstein FFT (EinFFT) for channel modeling by specific eigenvalue computations
and uses the Mamba block for sequence modeling. Extensive performance studies
across image and time-series benchmarks demonstrate that SiMBA outperforms
existing SSMs, bridging the performance gap with state-of-the-art transformers.
Notably, SiMBA establishes itself as the new state-of-the-art SSM on ImageNet
and transfer learning benchmarks such as Stanford Car and Flower as well as
task learning benchmarks as well as seven time series benchmark datasets. The
project page is available on this website
~https://github.com/badripatro/Simba.Summary
AI-Generated Summary