ChatPaper.aiChatPaper

Audio Mamba: 音声表現学習のための双方向状態空間モデル

Audio Mamba: Bidirectional State Space Model for Audio Representation Learning

June 5, 2024
著者: Mehmet Hamza Erol, Arda Senocak, Jiu Feng, Joon Son Chung
cs.AI

要旨

Transformerは急速に音声分類における第一選択肢となり、CNNベースの手法を凌駕しています。しかし、Audio Spectrogram Transformer(AST)は、セルフアテンションによる二次スケーリングを示します。この二次的なセルフアテンションのコストを削減することは、魅力的な方向性です。最近、Mambaなどの状態空間モデル(SSM)が、言語や視覚タスクにおいてその可能性を示しています。本研究では、音声分類タスクにおいてセルフアテンションへの依存が本当に必要かどうかを探ります。セルフアテンションを一切使用せず、純粋にSSMベースの音声分類モデルであるAudio Mamba(AuM)を導入することで、この問いに取り組みます。AuMを6つの異なるベンチマークを含む様々な音声データセットで評価した結果、確立されたASTモデルと同等またはそれ以上の性能を達成しました。
English
Transformers have rapidly become the preferred choice for audio classification, surpassing methods based on CNNs. However, Audio Spectrogram Transformers (ASTs) exhibit quadratic scaling due to self-attention. The removal of this quadratic self-attention cost presents an appealing direction. Recently, state space models (SSMs), such as Mamba, have demonstrated potential in language and vision tasks in this regard. In this study, we explore whether reliance on self-attention is necessary for audio classification tasks. By introducing Audio Mamba (AuM), the first self-attention-free, purely SSM-based model for audio classification, we aim to address this question. We evaluate AuM on various audio datasets - comprising six different benchmarks - where it achieves comparable or better performance compared to well-established AST model.

Summary

AI-Generated Summary

PDF211December 12, 2024