오디오 맘바: 오디오 표현 학습을 위한 양방향 상태 공간 모델
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning
June 5, 2024
저자: Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung
cs.AI
초록
트랜스포머는 오디오 분류에서 CNN 기반 방법을 능가하며 빠르게 선호되는 선택이 되었습니다. 그러나 오디오 스펙트로그램 트랜스포머(AST)는 자기 주의(self-attention)로 인해 이차적 스케일링을 보입니다. 이러한 이차적 자기 주의 비용을 제거하는 것은 매력적인 연구 방향입니다. 최근, 맘바(Mamba)와 같은 상태 공간 모델(SSM)이 언어 및 비전 작업에서 이러한 측면에서 잠재력을 보여주었습니다. 본 연구에서는 오디오 분류 작업에서 자기 주의에 대한 의존이 필요한지 탐구합니다. 이를 위해, 우리는 오디오 분류를 위한 최초의 자기 주의가 없는 순수 SSM 기반 모델인 오디오 맘바(AuM)를 제안하여 이 질문에 답하고자 합니다. AuM은 다양한 오디오 데이터셋(6개의 벤치마크로 구성)에서 평가되었으며, 잘 알려진 AST 모델과 비교했을 때 비슷하거나 더 나은 성능을 달성했습니다.
English
Transformers have rapidly become the preferred choice for audio
classification, surpassing methods based on CNNs. However, Audio Spectrogram
Transformers (ASTs) exhibit quadratic scaling due to self-attention. The
removal of this quadratic self-attention cost presents an appealing direction.
Recently, state space models (SSMs), such as Mamba, have demonstrated potential
in language and vision tasks in this regard. In this study, we explore whether
reliance on self-attention is necessary for audio classification tasks. By
introducing Audio Mamba (AuM), the first self-attention-free, purely SSM-based
model for audio classification, we aim to address this question. We evaluate
AuM on various audio datasets - comprising six different benchmarks - where it
achieves comparable or better performance compared to well-established AST
model.Summary
AI-Generated Summary