Speech Slytherin: 음성 분리, 인식 및 합성을 위한 Mamba의 성능과 효율성 평가
Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis
July 13, 2024
저자: Xilin Jiang, Yinghao Aaron Li, Adrian Nicolas Florea, Cong Han, Nima Mesgarani
cs.AI
초록
음성 처리에서 Mamba가 트랜스포머보다 더 나은 대안이라고 결론짓기에는 아직 이르다. 이를 확인하기 위해, Mamba와 트랜스포머를 여러 음성 관련 작업에서 성능과 효율성 측면에서 비교해야 한다. 이러한 결론을 도출하기 위해, 우리는 세 가지 작업에 대한 세 가지 모델을 제안하고 평가한다: 음성 분리를 위한 Mamba-TasNet, 음성 인식을 위한 ConMamba, 그리고 음성 합성을 위한 VALL-M. 이들을 유사한 크기의 트랜스포머 모델(Sepformer, Conformer, VALL-E)과 성능, 메모리, 속도 측면에서 비교한다. 우리의 Mamba 또는 Mamba-트랜스포머 하이브리드 모델은 트랜스포머 대비 동등하거나 더 높은 성능을 보인다. 또한, 음성 토큰의 해상도와 반비례하는 임계 길이 이상의 음성에 대해 메모리와 속도 측면에서 트랜스포머보다 더 효율적이다. 분리를 위한 Mamba가 가장 효율적이며, 인식을 위한 Mamba가 가장 덜 효율적이다. 더 나아가, Mamba는 임계 길이 미만의 짧은 음성에 대해 트랜스포머보다 더 효율적이지 않으며, 두 입력 간의 교차 또는 마스크 어텐션과 같은 텍스트와 음성의 공동 모델링이 필요한 모델에서는 성능이 더 나쁘다는 것을 보여준다. 따라서, Mamba와 트랜스포머 중 어느 것이 우수한지는 특정 문제와 모델에 따라 달라진다고 주장한다. 코드는 https://github.com/xi-j/Mamba-TasNet와 https://github.com/xi-j/Mamba-ASR에서 확인할 수 있다.
English
It is too early to conclude that Mamba is a better alternative to
transformers for speech before comparing Mamba with transformers in terms of
both performance and efficiency in multiple speech-related tasks. To reach this
conclusion, we propose and evaluate three models for three tasks: Mamba-TasNet
for speech separation, ConMamba for speech recognition, and VALL-M for speech
synthesis. We compare them with transformers of similar sizes in performance,
memory, and speed. Our Mamba or Mamba-transformer hybrid models show comparable
or higher performance than their transformer counterparts: Sepformer,
Conformer, and VALL-E. They are more efficient than transformers in memory and
speed for speech longer than a threshold duration, inversely related to the
resolution of a speech token. Mamba for separation is the most efficient, and
Mamba for recognition is the least. Further, we show that Mamba is not more
efficient than transformer for speech shorter than the threshold duration and
performs worse in models that require joint modeling of text and speech, such
as cross or masked attention of two inputs. Therefore, we argue that the
superiority of Mamba or transformer depends on particular problems and models.
Code available at https://github.com/xi-j/Mamba-TasNet and
https://github.com/xi-j/Mamba-ASR.Summary
AI-Generated Summary