Audio Mamba: Bidirektionales Zustandsraummodell für die Darstellung von Audio-Lernen
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning
June 5, 2024
Autoren: Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung
cs.AI
Zusammenfassung
Transformer sind schnell zur bevorzugten Wahl für die Audio-Klassifizierung geworden und haben Methoden, die auf CNNs basieren, übertroffen. Allerdings zeigen Audio-Spektrogramm-Transformer (ASTs) aufgrund von Selbst-Aufmerksamkeit eine quadratische Skalierung. Die Beseitigung dieser quadratischen Selbst-Aufmerksamkeitskosten stellt eine vielversprechende Richtung dar. In letzter Zeit haben Zustandsraummodelle (SSMs) wie Mamba Potenzial in Sprach- und Bildaufgaben in dieser Hinsicht gezeigt. In dieser Studie untersuchen wir, ob die Abhängigkeit von Selbst-Aufmerksamkeit für Audio-Klassifizierungsaufgaben notwendig ist. Durch die Einführung von Audio Mamba (AuM), dem ersten selbst-Aufmerksamkeit-freien, rein auf SSM basierenden Modell für die Audio-Klassifizierung, wollen wir diese Frage beantworten. Wir evaluieren AuM an verschiedenen Audio-Datensätzen - bestehend aus sechs verschiedenen Benchmarks - wo es vergleichbare oder bessere Leistung im Vergleich zu etablierten AST-Modellen erzielt.
English
Transformers have rapidly become the preferred choice for audio
classification, surpassing methods based on CNNs. However, Audio Spectrogram
Transformers (ASTs) exhibit quadratic scaling due to self-attention. The
removal of this quadratic self-attention cost presents an appealing direction.
Recently, state space models (SSMs), such as Mamba, have demonstrated potential
in language and vision tasks in this regard. In this study, we explore whether
reliance on self-attention is necessary for audio classification tasks. By
introducing Audio Mamba (AuM), the first self-attention-free, purely SSM-based
model for audio classification, we aim to address this question. We evaluate
AuM on various audio datasets - comprising six different benchmarks - where it
achieves comparable or better performance compared to well-established AST
model.Summary
AI-Generated Summary