ChatPaper.aiChatPaper

Speech Slytherin: Analisi delle Prestazioni e dell'Efficienza di Mamba per la Separazione, il Riconoscimento e la Sintesi Vocale

Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis

July 13, 2024
Autori: Xilin Jiang, Yinghao Aaron Li, Adrian Nicolas Florea, Cong Han, Nima Mesgarani
cs.AI

Abstract

È troppo presto per concludere che Mamba rappresenti un'alternativa migliore ai transformer nel campo del riconoscimento vocale prima di confrontare Mamba con i transformer in termini di prestazioni ed efficienza in molteplici attività legate al parlato. Per giungere a questa conclusione, proponiamo e valutiamo tre modelli per tre compiti: Mamba-TasNet per la separazione del parlato, ConMamba per il riconoscimento vocale e VALL-M per la sintesi vocale. Confrontiamo questi modelli con transformer di dimensioni simili in termini di prestazioni, memoria e velocità. I nostri modelli Mamba o ibridi Mamba-transformer mostrano prestazioni comparabili o superiori rispetto alle loro controparti basate su transformer: Sepformer, Conformer e VALL-E. Sono inoltre più efficienti dei transformer in termini di memoria e velocità per segmenti vocali più lunghi di una durata soglia, inversamente correlata alla risoluzione di un token vocale. Mamba per la separazione è il più efficiente, mentre Mamba per il riconoscimento è il meno efficiente. Inoltre, dimostriamo che Mamba non è più efficiente dei transformer per segmenti vocali più brevi della durata soglia e si comporta peggio in modelli che richiedono una modellazione congiunta di testo e parlato, come l'attenzione incrociata o mascherata su due input. Pertanto, sosteniamo che la superiorità di Mamba o transformer dipenda da problemi e modelli specifici. Il codice è disponibile su https://github.com/xi-j/Mamba-TasNet e https://github.com/xi-j/Mamba-ASR.
English
It is too early to conclude that Mamba is a better alternative to transformers for speech before comparing Mamba with transformers in terms of both performance and efficiency in multiple speech-related tasks. To reach this conclusion, we propose and evaluate three models for three tasks: Mamba-TasNet for speech separation, ConMamba for speech recognition, and VALL-M for speech synthesis. We compare them with transformers of similar sizes in performance, memory, and speed. Our Mamba or Mamba-transformer hybrid models show comparable or higher performance than their transformer counterparts: Sepformer, Conformer, and VALL-E. They are more efficient than transformers in memory and speed for speech longer than a threshold duration, inversely related to the resolution of a speech token. Mamba for separation is the most efficient, and Mamba for recognition is the least. Further, we show that Mamba is not more efficient than transformer for speech shorter than the threshold duration and performs worse in models that require joint modeling of text and speech, such as cross or masked attention of two inputs. Therefore, we argue that the superiority of Mamba or transformer depends on particular problems and models. Code available at https://github.com/xi-j/Mamba-TasNet and https://github.com/xi-j/Mamba-ASR.
PDF102November 28, 2024