Speech Slytherin : Analyse des performances et de l'efficacité de Mamba pour la séparation, la reconnaissance et la synthèse de la parole

papers.abstract

Il est trop tôt pour conclure que Mamba constitue une meilleure alternative aux transformers pour la parole avant de comparer Mamba avec les transformers en termes de performance et d'efficacité dans plusieurs tâches liées à la parole. Pour parvenir à cette conclusion, nous proposons et évaluons trois modèles pour trois tâches : Mamba-TasNet pour la séparation de la parole, ConMamba pour la reconnaissance de la parole, et VALL-M pour la synthèse de la parole. Nous les comparons avec des transformers de tailles similaires en termes de performance, de mémoire et de vitesse. Nos modèles Mamba ou hybrides Mamba-transformer montrent des performances comparables ou supérieures à leurs homologues transformers : Sepformer, Conformer et VALL-E. Ils sont plus efficaces que les transformers en mémoire et en vitesse pour des segments de parole dépassant une durée seuil, inversement liée à la résolution d'un token de parole. Mamba pour la séparation est le plus efficace, tandis que Mamba pour la reconnaissance est le moins. De plus, nous montrons que Mamba n'est pas plus efficace que le transformer pour des segments de parole plus courts que la durée seuil et obtient de moins bons résultats dans les modèles nécessitant une modélisation conjointe du texte et de la parole, comme l'attention croisée ou masquée de deux entrées. Par conséquent, nous soutenons que la supériorité de Mamba ou du transformer dépend des problèmes et des modèles spécifiques. Le code est disponible à l'adresse https://github.com/xi-j/Mamba-TasNet et https://github.com/xi-j/Mamba-ASR.

English

It is too early to conclude that Mamba is a better alternative to transformers for speech before comparing Mamba with transformers in terms of both performance and efficiency in multiple speech-related tasks. To reach this conclusion, we propose and evaluate three models for three tasks: Mamba-TasNet for speech separation, ConMamba for speech recognition, and VALL-M for speech synthesis. We compare them with transformers of similar sizes in performance, memory, and speed. Our Mamba or Mamba-transformer hybrid models show comparable or higher performance than their transformer counterparts: Sepformer, Conformer, and VALL-E. They are more efficient than transformers in memory and speed for speech longer than a threshold duration, inversely related to the resolution of a speech token. Mamba for separation is the most efficient, and Mamba for recognition is the least. Further, we show that Mamba is not more efficient than transformer for speech shorter than the threshold duration and performs worse in models that require joint modeling of text and speech, such as cross or masked attention of two inputs. Therefore, we argue that the superiority of Mamba or transformer depends on particular problems and models. Code available at https://github.com/xi-j/Mamba-TasNet and https://github.com/xi-j/Mamba-ASR.

Speech Slytherin : Analyse des performances et de l'efficacité de Mamba pour la séparation, la reconnaissance et la synthèse de la parole

Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis

papers.abstract

Support