Audio Mamba: Modelo de Espaço de Estados Bidirecional para Aprendizado de Representação de Áudio
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning
June 5, 2024
Autores: Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung
cs.AI
Resumo
Os Transformers rapidamente se tornaram a escolha preferida para classificação de áudio, superando métodos baseados em CNNs. No entanto, os Audio Spectrogram Transformers (ASTs) apresentam escalonamento quadrático devido ao mecanismo de self-attention. A eliminação desse custo quadrático associado à self-attention representa uma direção promissora. Recentemente, modelos de espaço de estados (SSMs), como o Mamba, demonstraram potencial em tarefas de linguagem e visão nesse aspecto. Neste estudo, investigamos se a dependência da self-attention é necessária para tarefas de classificação de áudio. Ao introduzir o Audio Mamba (AuM), o primeiro modelo para classificação de áudio baseado exclusivamente em SSMs e livre de self-attention, buscamos responder a essa questão. Avaliamos o AuM em diversos conjuntos de dados de áudio - compreendendo seis benchmarks diferentes - onde ele alcança desempenho comparável ou superior ao bem estabelecido modelo AST.
English
Transformers have rapidly become the preferred choice for audio
classification, surpassing methods based on CNNs. However, Audio Spectrogram
Transformers (ASTs) exhibit quadratic scaling due to self-attention. The
removal of this quadratic self-attention cost presents an appealing direction.
Recently, state space models (SSMs), such as Mamba, have demonstrated potential
in language and vision tasks in this regard. In this study, we explore whether
reliance on self-attention is necessary for audio classification tasks. By
introducing Audio Mamba (AuM), the first self-attention-free, purely SSM-based
model for audio classification, we aim to address this question. We evaluate
AuM on various audio datasets - comprising six different benchmarks - where it
achieves comparable or better performance compared to well-established AST
model.