Аудио Мамба: Двунаправленная модель пространства состояний для представления аудио. Обучение.
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning
June 5, 2024
Авторы: Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung
cs.AI
Аннотация
Трансформеры быстро стали предпочтительным выбором для классификации звука, превосходя методы, основанные на сверточных нейронных сетях. Однако аудио спектральные трансформеры (AST) демонстрируют квадратичное масштабирование из-за самовнимания. Удаление этой квадратичной стоимости самовнимания представляет собой привлекательное направление. Недавно модели пространства состояний (SSM), такие как Mamba, продемонстрировали потенциал в языковых и зрительных задачах в этом отношении. В данном исследовании мы исследуем, необходимо ли использование самовнимания для задач классификации аудио. Представляя Audio Mamba (AuM), первую модель для классификации аудио, основанную исключительно на SSM и не содержащую самовнимания, мы стремимся ответить на этот вопрос. Мы оцениваем AuM на различных аудио наборах данных - включая шесть различных бенчмарков - где он достигает сравнимой или лучшей производительности по сравнению с хорошо установленной моделью AST.
English
Transformers have rapidly become the preferred choice for audio
classification, surpassing methods based on CNNs. However, Audio Spectrogram
Transformers (ASTs) exhibit quadratic scaling due to self-attention. The
removal of this quadratic self-attention cost presents an appealing direction.
Recently, state space models (SSMs), such as Mamba, have demonstrated potential
in language and vision tasks in this regard. In this study, we explore whether
reliance on self-attention is necessary for audio classification tasks. By
introducing Audio Mamba (AuM), the first self-attention-free, purely SSM-based
model for audio classification, we aim to address this question. We evaluate
AuM on various audio datasets - comprising six different benchmarks - where it
achieves comparable or better performance compared to well-established AST
model.Summary
AI-Generated Summary