ChatPaper.aiChatPaper

Аудио Мамба: Двунаправленная модель пространства состояний для представления аудио. Обучение.

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

June 5, 2024
Авторы: Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung
cs.AI

Аннотация

Трансформеры быстро стали предпочтительным выбором для классификации звука, превосходя методы, основанные на сверточных нейронных сетях. Однако аудио спектральные трансформеры (AST) демонстрируют квадратичное масштабирование из-за самовнимания. Удаление этой квадратичной стоимости самовнимания представляет собой привлекательное направление. Недавно модели пространства состояний (SSM), такие как Mamba, продемонстрировали потенциал в языковых и зрительных задачах в этом отношении. В данном исследовании мы исследуем, необходимо ли использование самовнимания для задач классификации аудио. Представляя Audio Mamba (AuM), первую модель для классификации аудио, основанную исключительно на SSM и не содержащую самовнимания, мы стремимся ответить на этот вопрос. Мы оцениваем AuM на различных аудио наборах данных - включая шесть различных бенчмарков - где он достигает сравнимой или лучшей производительности по сравнению с хорошо установленной моделью AST.
English
Transformers have rapidly become the preferred choice for audio classification, surpassing methods based on CNNs. However, Audio Spectrogram Transformers (ASTs) exhibit quadratic scaling due to self-attention. The removal of this quadratic self-attention cost presents an appealing direction. Recently, state space models (SSMs), such as Mamba, have demonstrated potential in language and vision tasks in this regard. In this study, we explore whether reliance on self-attention is necessary for audio classification tasks. By introducing Audio Mamba (AuM), the first self-attention-free, purely SSM-based model for audio classification, we aim to address this question. We evaluate AuM on various audio datasets - comprising six different benchmarks - where it achieves comparable or better performance compared to well-established AST model.

Summary

AI-Generated Summary

PDF211December 12, 2024