ChatPaper.aiChatPaper

Audio Mamba: Modelo de Espacio de Estado Bidireccional para el Aprendizaje de Representaciones de Audio

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

June 5, 2024
Autores: Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung
cs.AI

Resumen

Los Transformers se han convertido rápidamente en la opción preferida para la clasificación de audio, superando a los métodos basados en CNNs. Sin embargo, los Transformers de Espectrograma de Audio (ASTs) presentan un escalado cuadrático debido a la autoatención. La eliminación de este costo cuadrático de autoatención representa una dirección atractiva. Recientemente, los modelos de espacio de estados (SSMs), como Mamba, han demostrado potencial en tareas de lenguaje y visión en este aspecto. En este estudio, exploramos si la dependencia de la autoatención es necesaria para las tareas de clasificación de audio. Al introducir Audio Mamba (AuM), el primer modelo basado exclusivamente en SSMs y sin autoatención para la clasificación de audio, buscamos abordar esta pregunta. Evaluamos AuM en varios conjuntos de datos de audio, que comprenden seis benchmarks diferentes, donde logra un rendimiento comparable o superior al del modelo AST bien establecido.
English
Transformers have rapidly become the preferred choice for audio classification, surpassing methods based on CNNs. However, Audio Spectrogram Transformers (ASTs) exhibit quadratic scaling due to self-attention. The removal of this quadratic self-attention cost presents an appealing direction. Recently, state space models (SSMs), such as Mamba, have demonstrated potential in language and vision tasks in this regard. In this study, we explore whether reliance on self-attention is necessary for audio classification tasks. By introducing Audio Mamba (AuM), the first self-attention-free, purely SSM-based model for audio classification, we aim to address this question. We evaluate AuM on various audio datasets - comprising six different benchmarks - where it achieves comparable or better performance compared to well-established AST model.

Summary

AI-Generated Summary

PDF211December 12, 2024